Database/Statistics

[통계] 분산 분석(등분산성, 사후 검정) + Python

yujin.me 2021. 9. 4. 17:13

등분산성(homoscedasticity)

  • 그룹간의 분산이 서로 같을 때
  • 분산 분석 진행시 기본적으로 해당 집단들이 만족해야되는 조건 중 한가지로 분산이 같음을 의미
  • 등분산 가정이 만족되는 경우에만 ANOVA수행하는 것이 좋고, 그렇지 않다면 Welch's ANOVA를 수행하는 것이 좋음
  • 집단간 분산이 같음은 Leven 검정으로 확인할 수 있음

가설과 예시

  • 귀무가설 : 데이터셋의 분산이 같다
  • 대립가설 : 데이터셋의 분산이 같지 않다
pg.homoscedasticity(dv='종속변수', group='group명', data=df)
더보기

p-val이 유의하기 때문에 귀무가설 기각 => '분산이 다르다'

분산 분석(Analysis of Variance, ANOVA) 

  • 통계학에서 두 개 이상 다수의 집단을 서로 비교하고자 할 때 사용되는 통계 공식
  • 두 집단의 평균을 비교할 때는 독립표본 T-검정을 사용
  • 다수 집단 비교에서 t-test를 여러 번 사용하면, 다중검정문제 발생으로 1종 오류 증가하기 때문에 ANOVA 사용
  • 집단간의 평균의 차이가 유의미한가를 확인하기 위해 사용하는 분석 방법
  • t-test와 다르게 개체간분산과 개체내분산을 이용하여 각 집단별 평균에 대한 유의성을 확인
  • 이를 통해 모든 집단들이 평균이 같다는 귀무가설을 검정할 수 있음
  • 분산 분석 결과가 통계적으로 유의미하면 사후 검정 실시
pg.anova(dv='종속변수', between='독립변수', data=df, detailed=True)

사후 검정

  • 분산 분석 결과가 통계적으로 유의미하면 사후 검정을 실시
  • 여러 집단 중 통계적으로 유의한 차이가 나는 집단 식별
  • '분산이 같다'가 귀무가설이므로 p-value가 유의하면 귀무가설이 기각되어 '분산이 다르다' > Games-Howell 검정
pg.pairwise_tukey(dv='종속변수', between='독립변수', data=df)
  • '분산이 같다'가 귀무가설이므로 p-value가 유의하지 않으면 귀무가설이 '분산이 같다'를 그대로 채택 > Tukey HSD
pg.pairwise_gameshowell(dv='종속변수', between='독립변수', data=df)
반응형