머릿속이 복잡하므로, 일단 내 맘대로 정리를 해본다.
결국 현 시점 시험에는 로지스틱회귀분석, 선형회귀분석 두가지만 출제된다.
정규성 검정
T-검정, ANOVA 등의 통계 기법을 사용 전 확인 사항
귀무가설은, 정규성을 따른다. → 검정 결과 p-value가 0.05보다 커야 정규성을 가진다.
`from scipy import stats`
`stats.shapiro(data)`
단일 그룹
모집단 평균과 표본 평균이 유의미한 차이가 있는지 확인
* 모집단 평균을 설정해줘야 함
`from scipy import stats`
`stats.ttest_1samp`
같은 그룹(집단) 내에서 두번 측정한 결과, 쌍을 이룬 데이터 평균의 차이 확인
* 전후관계 설명 등
* alternative 옵션 : 양측검정 여부
`from scipy import stats`
`stats.ttest_rel`
그룹간의 관계
두 집단간의 평균이 유의미한 차이가 있는지 확인
`from scipy import stats`
`stats.ttest_ind`
그룹이 3개 이상일 때, 독립변수가 1개인 경우
종속변수는 연속형, 독립변수는 범주형(집단)일 때
`from scipy import stats`
`stats.f_oneway`
그룹이 3개 이상일때, 독립변수가 n개인 경우
`from statsmodels.formula.api import ols`
`model = ols('Sales ~ C(Decoration_Type) * C(Region)', data=df).fit()`
`print(sm.stats.anova_lm(model))`
변수들간의 관계
변수들이 결과(종속변수)에 미치는 영향을 분석
종속변수가 이진형인 경우 사용, 결과는 오즈비나 확률로 분석
`import statsmodels.api as sm`
`model = Logit(y, X).fit()`
`print(model.summary())`
`오즈비 계산 : np.exp`
종속변수와 두개 이상의 독립변수 사이의 선형관계를 분석
`import statsmodels.api as sm`
`model = sm.OLS(y, X).fit()`
`print(model.summary())`
범주형 데이터의 독립성이나 적합도를 검정하는 통계
두 변수사이의 독립성(연관성), 한 변수의 분포가 기대분포와 일치하는지 검정
# 1. 적합도
`stats.chisquare(expected_counts, observed_counts)`
# 2. 독립성
`stats.chi2_contingency(df)`
# df.corr() // pandas에서 metrics를 제공함