본문 바로가기

Database/Statistics

[통계] 상관분석 + Python

상관계수

  • 두 변수의 연관성을 파악할 필요가 있는 경우에 사용
  • 두 변수의 연관성을 -1 ~ +1 범위의 수치로 나타냄
  • 두 변수가 연관된 정도
  • 범위에서 많이 벗어나있냐 조금 벗어나있냐의 문제
  • 추세선의 기울기는 한 변수의 증감에 따른 다른 변수의 증감으로 두 가지를 혼동하지 않도록 주의
  • 실제 의사결정에서는 상대적으로 비교하는 것이 바람직

상관계수의 크기

  • 0 : 두 변수가 독립, 한 변수의 변화로 다른 변수의 변화를 예측하지 못함 => 관련이 없음
  • 1 : 한 변수의 변화와 다른 변수의 변화가 정확히 일치 => 관련이 있음
  • 낮음 (~0.1) / 중간 (0.1~0.5) / 높음(0.5~)

상관분석

피어슨 상관계수

  • 가상 대표적인 상관계수
  • 선형적인 상관계수를 측정
  • 데이터가 많을 때 사용
  • r이 상관계수를 나타냄
pg.corr(변수1, 변수2)

스피어만 상관계수

  • 실제 변수값 대신 그 서열을 사용하여 피어슨 상관계수를 계산
  • 한 변수의 서열이 높아지면 다른 변수의 서열도 높아지는지를 나타냄
  • 두 변수의 관계가 비선형적이나 단조절일 때 사용
  • 극단적인 경우
pg.corr(변수1, 변수2, method='spearman')

켄달 상관계수

  • 데이터가 매우 적을 때 사용
  • 모든 사례를 짝지어 X의 대소관계와 Y의 대소관계가 일치하는지 사용
pg.corr(변수1, 변수2, method='kendall')
반응형