정의 :
설명변수간 상관계수가 높은 경우 회귀계수의 값이 매우 커짐
특정 설명변수가 다른 변수들과의 선형결합으로 표현되는 경우
다중공선성 여부 확인 :
나머지 설명변수들로 새로운 회귀식을 추정한 후 분산팽창계수(VIF) 확인
R^2 : 결정계수
(결정계수에 대한 포스팅 링크 주석 달기)
VIF > 10 이면 의심의 여지 많음 = 다중공선성이 존재
다중공선성 해결책 :
독립변수간 상관관계는 어느정도 존재하는것이 일반적. 다중공선성을 최소화해야함
1) 신중한 변수 선택
2) OLS(최소제곱법) 추정치에 대한 대안 = 회귀분석 방식 바꾸기
ex. 능동회귀 (ridge regression) - 회귀계수가 너무 커지지 않게 제약
'School > 머신러닝' 카테고리의 다른 글
선형분류 (0) | 2022.04.06 |
---|---|
과적합과 과소적합 (0) | 2022.03.30 |
회귀분석에서의 변수선택 (0) | 2022.03.30 |
서브셋 (0) | 2022.03.30 |
다중회귀모형의 선택 (0) | 2022.03.29 |