School/머신러닝
다중공선성
응엉잉
2022. 3. 29. 23:07
정의 :
설명변수간 상관계수가 높은 경우 회귀계수의 값이 매우 커짐
특정 설명변수가 다른 변수들과의 선형결합으로 표현되는 경우
다중공선성 여부 확인 :
나머지 설명변수들로 새로운 회귀식을 추정한 후 분산팽창계수(VIF) 확인
R^2 : 결정계수
(결정계수에 대한 포스팅 링크 주석 달기)
VIF > 10 이면 의심의 여지 많음 = 다중공선성이 존재
다중공선성 해결책 :
독립변수간 상관관계는 어느정도 존재하는것이 일반적. 다중공선성을 최소화해야함
1) 신중한 변수 선택
2) OLS(최소제곱법) 추정치에 대한 대안 = 회귀분석 방식 바꾸기
ex. 능동회귀 (ridge regression) - 회귀계수가 너무 커지지 않게 제약