본문 바로가기

Database/Statistics

(8)
[통계] 비지도학습(차원 축소, 군집분석) 1️⃣ 머신러닝의 학습 방법 ▪️ 지도학습 말 그대로 정답이 있는 데이터를 활용해 데이터를 학습시키는 것 입력 값이 주어지면 입력값에 대한 Label을 주어 학습시키며 대표적으로 분류, 회귀 예를 들어 3*3을 주고 라벨 데이터 셋을 입력 데이터 셋의 정답인 9를 알려주면 주어지지 않은 데이터 셋 9*3도 해결할 수 있음 ▪️ 비지도학습 지도 학습과 달리 정답이 없는 데이터 비슷한 특징끼리 군집화하여 새로운 데이터에 대한 결과를 예측하는 방법 라벨링이 되어 있지 않은 데이터로부터 패턴이나 형태를 찾아야 하기 때문에 지도학습보다는 조금 더 난이도가 있음 비지도 학습의 대표적인 종류로는 클러스터링(Clustering), 차원 축소(Dimentionality Reduction)이 있음 2️⃣ 차원 축소 데이터..
[통계] 혼동 행렬(Confusion Matrix) + Python 혼동 행렬(Confusion Matrix) 모델의 성능을 평가할 때 사용되는 지표 예측값이 실제 관측값을 얼마나 정확히 예측했는지 보여주는 행렬 분류 모델을 평가하는 기준 모델이 얼마나 정밀한지, 얼마나 실용적인지, 얼마나 정확한지를 평가 레이블 0, 1을 가진 데이터를 분류한다고 할 때 관심 범주를 1이라고 한다 True Positives : 1인 레이블을 1이라 하는 경우 → 관심 범주를 정확하게 분류한 값 False Negatives : 1인 레이블을 0이라 하는 경우 → 관심 범주가 아닌 것으로 잘못 분류 False Positives : 0인 레이블을 1이라 하는 경우 → 관심 범주라고 잘못 분류 True Negatives : 0인 레이블을 0이라 하는 경우 → 관심 범주가 아닌 것을 정확하게 분..
[통계] 로지스틱 회귀분석(Logistic Regression) 로지스틱 회귀분석(Logistic Regression) 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법 다양한 종속변수를 분석할 수 있도록 선형 모형을 확장한 것 데이터가 어떤 범주에 속할 확률을 0에서 1사이의 값으로 예측, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류 선형 회귀 분석과 다르게 결과가 범주형일 때 사용 from statsmodels.formula.api import logit m1 = logit('종속변수 ~ 독립변수1 + 독립변수', df).fit() # 종속변수 ~ 독립변수 m1.summary()
[통계] 로그 함수 + Python 로그 함수 선형 모형은 독립변수와 종속변수의 선형적 관계를 가정한다는 한계 자연로그를 씌우면 비선형관계를 선형관계로 변환할 수 있음 오른쪽으로 크게 떨어져 있는 값이 있는 경우, 독립변수에 로그함수를 적용해주면 간격을 일정하게 만들어 줄 수 있음 import numpy as np ols('종속변수 ~ np.log(독립변수)', data=df).fit().summary() 데이터 분석에서 로그 함수를 사용하는 이유 정규성을 높이고 분석에서 정확한 값을 얻기 위함 분포가 극단으로 치우쳐져 있는 경우 분포를 비교해볼 때 용이함 왜도와 첨도를 줄일 수 있기 때문에 정규성이 높아짐 재산의 범위가 0원에서 몇 조 단위라면 결과값이 이상해질 수 있기 때문에 큰 수를 같은 비율의 작은 수로 바꿔줌 큰 수를 작게 만들고..