본문 바로가기

Database/Statistics

(8)
[통계] 회귀분석(회귀계수, R제곱, 더미코딩) + Python 회귀분석(Regression Analysis) 독립변수가 종속변수에 영향을 미치는지 알아보고자 할 때 실시하는 분석방법 하나의 종속변수와 하나의 독립변수 사이의 관계를 분석할 경우 단순회귀분석 하나의 종속변수와 여러 독립변수 사이의 관계를 규명하고자 할 경우 다중회귀분석 from statsmodels.formula.api import ols m = ols("종속변수 ~ 독립변수", data=df).fit() m.summary # 결과 회귀분석의 사전 진단 산점도에 추세선을 넣어 데이터에 선형적인 패턴이 있는지 확인 극단값이 있을 경우 회귀분석의 결과가 왜곡될 수 있으므로 극단값이 있는지 확인 선형회귀분석 독립변수와 종속변수 사이에 직선적인 형태의 관계가 있다고 가정 독립변수가 일정하게 증가하면, 종속변수..
[통계] 상관분석 + Python 상관계수 두 변수의 연관성을 파악할 필요가 있는 경우에 사용 두 변수의 연관성을 -1 ~ +1 범위의 수치로 나타냄 두 변수가 연관된 정도 범위에서 많이 벗어나있냐 조금 벗어나있냐의 문제 추세선의 기울기는 한 변수의 증감에 따른 다른 변수의 증감으로 두 가지를 혼동하지 않도록 주의 실제 의사결정에서는 상대적으로 비교하는 것이 바람직 상관계수의 크기 0 : 두 변수가 독립, 한 변수의 변화로 다른 변수의 변화를 예측하지 못함 => 관련이 없음 1 : 한 변수의 변화와 다른 변수의 변화가 정확히 일치 => 관련이 있음 낮음 (~0.1) / 중간 (0.1~0.5) / 높음(0.5~) 상관분석 피어슨 상관계수 가상 대표적인 상관계수 선형적인 상관계수를 측정 데이터가 많을 때 사용 r이 상관계수를 나타냄 pg.c..
[통계] 카이제곱 검정 + Python 카이제곱 검정 두 범주형 변수가 독립적이라는 귀무가설을 검정 데이터가 예상한 대로인지 여부에 대한 가설 검정에 사용 집단간의 동질성 여부를 통계적으로 검증하거나 두 변인간의 상관성을 통계적으로 검증하고자 할 때 사용 주로 범주형 자료의 두 변인간의 상관성을 검증할 때 많이 사용 범주형 자료로 구성된 데이터 분석에 이용 항상 '~같다', '~없다', '0이다'가 귀무가설 데이터가 적으면 p-value가 부정확할 수 있음 expected, observed, stats = pg.chi2_independence(x='변수', y='변수', data=safety) # stats를 확인했을 때 p-value가 적을 때만 유의한 관계이다 예시 연령대에 따라 선호하는 영화 장르의 차이가 있는가? 귀무가설 : 연령대에 ..
[통계] 분산 분석(등분산성, 사후 검정) + Python 등분산성(homoscedasticity) 그룹간의 분산이 서로 같을 때 분산 분석 진행시 기본적으로 해당 집단들이 만족해야되는 조건 중 한가지로 분산이 같음을 의미 등분산 가정이 만족되는 경우에만 ANOVA수행하는 것이 좋고, 그렇지 않다면 Welch's ANOVA를 수행하는 것이 좋음 집단간 분산이 같음은 Leven 검정으로 확인할 수 있음 가설과 예시 귀무가설 : 데이터셋의 분산이 같다 대립가설 : 데이터셋의 분산이 같지 않다 pg.homoscedasticity(dv='종속변수', group='group명', data=df) 더보기 p-val이 유의하기 때문에 귀무가설 기각 => '분산이 다르다' 분산 분석(Analysis of Variance, ANOVA) 통계학에서 두 개 이상 다수의 집단을 서로..