https://ratsgo.github.io/machine%20learning/2017/04/02/logistic/
로지스틱 회귀 한줄요약
: 특정 확률의 비율을 회귀분석하는 model
회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1사이 값으로 예측하고, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도학습
문제의식
y가 범주형(categorical) 변수일때는 다중선형회귀모델을 적용할 수 없음
-> 로지스틱회귀모델이 제안됨
로지스틱 함수(Logisitic Function)
특정변수에 대한 확률값이 s커브를 띄는 경우가 많은데, s커브를 함수로 표현해낸것
확률값에 대한 함수이므로 확률밀도함수
승산(odds)
임의의 사건 A가 발생할 확률/임의의 사건 A가 발생하지 않을 확률
P(A)가 1에 가까울수록 승산 급증
P(A)가 0 이라면 승산도 0
-> 승산이 커질수록 사건 A가 발생할 확률이 급증
이항 로지스틱 회귀
회귀식의 장점을 사용하기 위해, 종속변수 Y를 범주가 아닌 (범주 1이 될) 확률로 두고 식을 세워보면
좌변은 확률값이기 때문에 0과 1 사이의 값을 가져야하지만 우변 회귀식의 범위는 음의 무한대에서 양의 무한대까지임
좌변을 승산으로 설정하고 다시 식을 작성해도 좌변의 범위는 0에서 무한대의 범위이고, 우변의 회귀식은 음의 무한대에서 양의 무한대까지의 범위임
좌변(승산)에 로그를 취하면 로그 승산의 그래프는 다음과 같고
로그 승산의 범위는 음의 무한대부터 양의 무한대까지임
좌변(승산)과 우변(회귀식)의 범위가 일치
결론적으로 로지스틱 회귀 모델의 식은
'School > 머신러닝' 카테고리의 다른 글
Ensemble Learning (0) | 2022.05.04 |
---|---|
의사결정나무(Decision Tree)-1 (0) | 2022.04.16 |
선형분류 (0) | 2022.04.06 |
과적합과 과소적합 (0) | 2022.03.30 |
회귀분석에서의 변수선택 (0) | 2022.03.30 |