상관계수
- 두 변수의 연관성을 파악할 필요가 있는 경우에 사용
- 두 변수의 연관성을 -1 ~ +1 범위의 수치로 나타냄
- 두 변수가 연관된 정도
- 범위에서 많이 벗어나있냐 조금 벗어나있냐의 문제
- 추세선의 기울기는 한 변수의 증감에 따른 다른 변수의 증감으로 두 가지를 혼동하지 않도록 주의
- 실제 의사결정에서는 상대적으로 비교하는 것이 바람직
상관계수의 크기
- 0 : 두 변수가 독립, 한 변수의 변화로 다른 변수의 변화를 예측하지 못함 => 관련이 없음
- 1 : 한 변수의 변화와 다른 변수의 변화가 정확히 일치 => 관련이 있음
- 낮음 (~0.1) / 중간 (0.1~0.5) / 높음(0.5~)
상관분석
피어슨 상관계수
- 가상 대표적인 상관계수
- 선형적인 상관계수를 측정
- 데이터가 많을 때 사용
- r이 상관계수를 나타냄
pg.corr(변수1, 변수2)
스피어만 상관계수
- 실제 변수값 대신 그 서열을 사용하여 피어슨 상관계수를 계산
- 한 변수의 서열이 높아지면 다른 변수의 서열도 높아지는지를 나타냄
- 두 변수의 관계가 비선형적이나 단조절일 때 사용
- 극단적인 경우
pg.corr(변수1, 변수2, method='spearman')
켄달 상관계수
- 데이터가 매우 적을 때 사용
- 모든 사례를 짝지어 X의 대소관계와 Y의 대소관계가 일치하는지 사용
pg.corr(변수1, 변수2, method='kendall')
반응형
'Database > Statistics' 카테고리의 다른 글
[통계] 로지스틱 회귀분석(Logistic Regression) (0) | 2021.09.05 |
---|---|
[통계] 로그 함수 + Python (0) | 2021.09.04 |
[통계] 회귀분석(회귀계수, R제곱, 더미코딩) + Python (0) | 2021.09.04 |
[통계] 카이제곱 검정 + Python (0) | 2021.09.04 |
[통계] 분산 분석(등분산성, 사후 검정) + Python (0) | 2021.09.04 |