빅데이터분석기사(BAE) - 유형3 - 시험에 필요한 이론

머릿속이 복잡하므로, 일단 내 맘대로 정리를 해본다.

결국 현 시점 시험에는 로지스틱회귀분석, 선형회귀분석 두가지만 출제된다.

정규성 검정

T-검정, ANOVA 등의 통계 기법을 사용 전 확인 사항
귀무가설은, 정규성을 따른다. → 검정 결과 p-value가 0.05보다 커야 정규성을 가진다.
`from scipy import stats`
`stats.shapiro(data)`

단일 그룹

단일표본 T검정

모집단 평균과 표본 평균이 유의미한 차이가 있는지 확인

* 모집단 평균을 설정해줘야 함

`from scipy import stats`
`stats.ttest_1samp`

대응표본 T검정

같은 그룹(집단) 내에서 두번 측정한 결과, 쌍을 이룬 데이터 평균의 차이 확인

* 전후관계 설명 등

* alternative 옵션 : 양측검정 여부

`from scipy import stats`
`stats.ttest_rel`

그룹간의 관계

독립표본 T검정

두 집단간의 평균이 유의미한 차이가 있는지 확인

`from scipy import stats`

`stats.ttest_ind`

일원분산분석(one-way ANOVA)

그룹이 3개 이상일 때, 독립변수가 1개인 경우

종속변수는 연속형, 독립변수는 범주형(집단)일 때

`from scipy import stats`
`stats.f_oneway`

이원분산분석(Two-way ANOVA)

그룹이 3개 이상일때, 독립변수가 n개인 경우

`from statsmodels.formula.api import ols`
`model = ols('Sales ~ C(Decoration_Type) * C(Region)', data=df).fit()`
`print(sm.stats.anova_lm(model))`

변수들간의 관계

로지스틱 회귀분석

변수들이 결과(종속변수)에 미치는 영향을 분석
종속변수가 이진형인 경우 사용, 결과는 오즈비나 확률로 분석

`import statsmodels.api as sm`

`model = Logit(y, X).fit()`

`print(model.summary())`
`오즈비 계산 : np.exp`

다중선형회귀분석

종속변수와 두개 이상의 독립변수 사이의 선형관계를 분석

`import statsmodels.api as sm`

`model = sm.OLS(y, X).fit()`

`print(model.summary())`

카이제곱 검정

범주형 데이터의 독립성이나 적합도를 검정하는 통계
두 변수사이의 독립성(연관성), 한 변수의 분포가 기대분포와 일치하는지 검정
# 1. 적합도
`stats.chisquare(expected_counts, observed_counts)`
# 2. 독립성
`stats.chi2_contingency(df)`

상관관계 분석

# df.corr() // pandas에서 metrics를 제공함

저작자표시 비영리 변경금지 (새창열림)

빅데이터분석기사(BAE) - 유형3 - 시험에 필요한 이론

정규성 검정

단일 그룹

그룹간의 관계

변수들간의 관계

티스토리툴바