본문 바로가기

ALL

(300)
[통계] 혼동 행렬(Confusion Matrix) + Python 혼동 행렬(Confusion Matrix) 모델의 성능을 평가할 때 사용되는 지표 예측값이 실제 관측값을 얼마나 정확히 예측했는지 보여주는 행렬 분류 모델을 평가하는 기준 모델이 얼마나 정밀한지, 얼마나 실용적인지, 얼마나 정확한지를 평가 레이블 0, 1을 가진 데이터를 분류한다고 할 때 관심 범주를 1이라고 한다 True Positives : 1인 레이블을 1이라 하는 경우 → 관심 범주를 정확하게 분류한 값 False Negatives : 1인 레이블을 0이라 하는 경우 → 관심 범주가 아닌 것으로 잘못 분류 False Positives : 0인 레이블을 1이라 하는 경우 → 관심 범주라고 잘못 분류 True Negatives : 0인 레이블을 0이라 하는 경우 → 관심 범주가 아닌 것을 정확하게 분..
[데잇걸즈] 10주차 회고(8.30~9.3) KEEP 드디어 미니 프로젝트 끝! 매일같이 새벽에 회의했던 시간이 벌써 까마득하게 느껴진다. 부족했던 잠은 이번 주에 몰아잘 계획! 다른 팀의 발표를 들으면서 '와 진짜 대단하다', '와 진짜 엄청나다'만 반복했다. 열정이 넘치는 분들과 함께할 수 있어서 정말 복에 겨운 것 같다. 데잇걸즈를 하게 된 건 정말 내 삶의 큰 행운이야.. 그런 점들이 내게 큰 자극이 되고 더 나아갈 에너지의 원천이 된다 💪🏻 좋은 친구들이 많이 생겼다. 나만의 생각은 아니겠G 🥺 통계 복습할 시간이 부족했는데 목요일, 금요일 그리고 주말까지의 자습으로 채울 수 있었다. 헷갈렸던 개념을 찾아보고 적용해보는데 시간이 생각보다 많이 걸렸지만 전보다는 수월하게 습득할 수 있었다. 바빠도 꼭 복습은 해야지. 아자아자 화이팅이닷! P..
[통계] 로지스틱 회귀분석(Logistic Regression) 로지스틱 회귀분석(Logistic Regression) 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법 다양한 종속변수를 분석할 수 있도록 선형 모형을 확장한 것 데이터가 어떤 범주에 속할 확률을 0에서 1사이의 값으로 예측, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류 선형 회귀 분석과 다르게 결과가 범주형일 때 사용 from statsmodels.formula.api import logit m1 = logit('종속변수 ~ 독립변수1 + 독립변수', df).fit() # 종속변수 ~ 독립변수 m1.summary()
[통계] 로그 함수 + Python 로그 함수 선형 모형은 독립변수와 종속변수의 선형적 관계를 가정한다는 한계 자연로그를 씌우면 비선형관계를 선형관계로 변환할 수 있음 오른쪽으로 크게 떨어져 있는 값이 있는 경우, 독립변수에 로그함수를 적용해주면 간격을 일정하게 만들어 줄 수 있음 import numpy as np ols('종속변수 ~ np.log(독립변수)', data=df).fit().summary() 데이터 분석에서 로그 함수를 사용하는 이유 정규성을 높이고 분석에서 정확한 값을 얻기 위함 분포가 극단으로 치우쳐져 있는 경우 분포를 비교해볼 때 용이함 왜도와 첨도를 줄일 수 있기 때문에 정규성이 높아짐 재산의 범위가 0원에서 몇 조 단위라면 결과값이 이상해질 수 있기 때문에 큰 수를 같은 비율의 작은 수로 바꿔줌 큰 수를 작게 만들고..