School/머신러닝

다중공선성

응엉잉 2022. 3. 29. 23:07

정의 :

설명변수간 상관계수가 높은 경우 회귀계수의 값이 매우 커짐

특정 설명변수가 다른 변수들과의 선형결합으로 표현되는 경우

 

다중공선성 여부 확인 :

나머지 설명변수들로 새로운 회귀식을 추정한 후 분산팽창계수(VIF) 확인

R^2 : 결정계수

(결정계수에 대한 포스팅 링크 주석 달기)

VIF > 10 이면 의심의 여지 많음 = 다중공선성이 존재

 

다중공선성 해결책 : 

독립변수간 상관관계는 어느정도 존재하는것이 일반적. 다중공선성을 최소화해야함

1) 신중한 변수 선택

2) OLS(최소제곱법) 추정치에 대한 대안 = 회귀분석 방식 바꾸기

  ex. 능동회귀 (ridge regression) - 회귀계수가 너무 커지지 않게 제약

 

'School > 머신러닝' 카테고리의 다른 글

선형분류  (0) 2022.04.06
과적합과 과소적합  (0) 2022.03.30
회귀분석에서의 변수선택  (0) 2022.03.30
서브셋  (0) 2022.03.30
다중회귀모형의 선택  (0) 2022.03.29