School/머신러닝

서브셋

응엉잉 2022. 3. 30. 00:19

최소제곱법의 결정적인 문제점(약점) 두가지

1) 예측 정확도 : 편향은 낮지만 분산은 높게 추정하는 경우가 있음(불안정한 모델이 만들어지는 경우가 있음)

  편향이 낮다 = 적합도가 높다

  분산이 높다 = 모집단에서 어떤 데이터를 샘플링해서 회귀분석을 하느냐에 따라서 추정되는 모수값이 크게 달라진다

 

2) 설명력

  가장 좋은 효과를 보이는 매우 작은 서브셋은 설명력을 저하시킨다

서브셋

여러개의 독립변수를 포함하는 경우/포함하지 않는 경우 두가지 경우를 모두 고려한 data set

k개의 독립변수가 있다면 (2^k-1) 개의 subset 존재 (모든 독립변수 사용하지 않는 경우를 제외)

 

최적 서브셋 회귀

(오차)^2 의 합을 최소화하는 서브셋을 구하는 과정

 

회귀분석에서의 변수 선택 

Extra Sum of Squares : 회귀분석 모형에 변수가 추가된 경우 SSR 의 증가분

SSR = 회귀분석의 설명력

SSR의 증가분 = SSE의 감소분

* SSR(회귀변동) : 회귀분석을 통해 설명할 수 있는 y값의 변동

* SSE(잔차변동) : 회귀분석을 통해 설명할 수 없는 y값의 변동

* SST(총변동) = SSR + SSE

X2 라는 변수가 존재하고, X1이 추가되었을 때 SSR의 증가분

= (X1과 X2가 동시에 존재할때 회귀분석의 설명력) -  (X2만 존재할때 회귀분석의 설명력)

= (X2만 존재할때 오차) - (X1과 X2 가 존재할 때 오차)

 

오차가 작아지는 정도가 크면(SSE의 감소분이 크면) 해당 변수를 추가해야 하고

오차가 작아지는 정도가 미미하면(SSE의 감소분이 미미하면) 해당 변수를 추가할 이유가 없다

 

변수를 제외했을 때

오차가 변화량이 미미하면 해당 변수를 제외해야하고 (모델을 단순화할수있으므로)

오차가 오차 변화량이 크면 해당 변수를 제외할 수 없다

 

일반화한 식

오차의 변화가 통계적으로 유의 ?

변수를 추가한 경우 : 변화가 유의해야 추가

변수를 제거한 경우 : 변화가 유의하지 않아야 제거

SSE f : 모든 변수를 사용했을 때의 오차

SSE r : 변수를 줄였을때의 오차

 

'School > 머신러닝' 카테고리의 다른 글

선형분류  (0) 2022.04.06
과적합과 과소적합  (0) 2022.03.30
회귀분석에서의 변수선택  (0) 2022.03.30
다중회귀모형의 선택  (0) 2022.03.29
다중공선성  (0) 2022.03.29