본문 바로가기

Database/Statistics

[통계] 로그 함수 + Python

로그 함수

  • 선형 모형은 독립변수와 종속변수의 선형적 관계를 가정한다는 한계
  • 자연로그를 씌우면 비선형관계를 선형관계로 변환할 수 있음
  • 오른쪽으로 크게 떨어져 있는 값이 있는 경우, 독립변수에 로그함수를 적용해주면 간격을 일정하게 만들어 줄 수 있음
import numpy as np
ols('종속변수 ~ np.log(독립변수)', data=df).fit().summary()

데이터 분석에서 로그 함수를 사용하는 이유

  • 정규성을 높이고 분석에서 정확한 값을 얻기 위함
  • 분포가 극단으로 치우쳐져 있는 경우 분포를 비교해볼 때 용이함
  • 왜도와 첨도를 줄일 수 있기 때문에 정규성이 높아짐
  • 재산의 범위가 0원에서 몇 조 단위라면 결과값이 이상해질 수 있기 때문에 큰 수를 같은 비율의 작은 수로 바꿔줌
  • 큰 수를 작게 만들고, 복잡한 계산을 간편하게 함

왜도

  • 데이터가 한쪽 방향으로 치우친 정도(해당 방향으로 극단치가 존재)
  • 0이면 좌우대칭, ±0.5면 중간 정도 치우침, ±1이 넘으면 극단적 치우침
  • 0.5가 넘어가면 Log함수를 씌우는 게 의미가 있을 수 있다
  • 회귀분석 결과에서 왜도를 보려면 Skew 항목을 보면 됨
  • negative skew : - 방향으로 치우침
  • positive skew : + 방향으로 치우침

 

참고

 

데이터 분석 시 식에 로그를 취하는 이유

데이터 분석에서 log의 중요성에 대해서 이야기 해보겠다. 데이터 분석을 하기 위해 log를 취하는 이유는 한마디로 정규성을 높이고 분석(회귀분석 등)에서 정확한 값을 얻기 위함이다. 데이터 간

leebaro.tistory.com

 

반응형