서브셋

School/머신러닝

서브셋

응엉잉 2022. 3. 30. 00:19

최소제곱법의 결정적인 문제점(약점) 두가지

1) 예측 정확도 : 편향은 낮지만 분산은 높게 추정하는 경우가 있음(불안정한 모델이 만들어지는 경우가 있음)

편향이 낮다 = 적합도가 높다

분산이 높다 = 모집단에서 어떤 데이터를 샘플링해서 회귀분석을 하느냐에 따라서 추정되는 모수값이 크게 달라진다

2) 설명력

가장 좋은 효과를 보이는 매우 작은 서브셋은 설명력을 저하시킨다

서브셋

여러개의 독립변수를 포함하는 경우/포함하지 않는 경우 두가지 경우를 모두 고려한 data set

k개의 독립변수가 있다면 (2^k-1) 개의 subset 존재 (모든 독립변수 사용하지 않는 경우를 제외)

최적 서브셋 회귀

(오차)^2 의 합을 최소화하는 서브셋을 구하는 과정

회귀분석에서의 변수 선택

Extra Sum of Squares : 회귀분석 모형에 변수가 추가된 경우 SSR 의 증가분

SSR = 회귀분석의 설명력

SSR의 증가분 = SSE의 감소분

* SSR(회귀변동) : 회귀분석을 통해 설명할 수 있는 y값의 변동

* SSE(잔차변동) : 회귀분석을 통해 설명할 수 없는 y값의 변동

* SST(총변동) = SSR + SSE

X2 라는 변수가 존재하고, X1이 추가되었을 때 SSR의 증가분

= (X1과 X2가 동시에 존재할때 회귀분석의 설명력) - (X2만 존재할때 회귀분석의 설명력)

= (X2만 존재할때 오차) - (X1과 X2 가 존재할 때 오차)

오차가 작아지는 정도가 크면(SSE의 감소분이 크면) 해당 변수를 추가해야 하고

오차가 작아지는 정도가 미미하면(SSE의 감소분이 미미하면) 해당 변수를 추가할 이유가 없다

변수를 제외했을 때

오차가 변화량이 미미하면 해당 변수를 제외해야하고 (모델을 단순화할수있으므로)

오차가 오차 변화량이 크면 해당 변수를 제외할 수 없다

오차의 변화가 통계적으로 유의 ?

변수를 추가한 경우 : 변화가 유의해야 추가

변수를 제거한 경우 : 변화가 유의하지 않아야 제거

SSE f : 모든 변수를 사용했을 때의 오차

SSE r : 변수를 줄였을때의 오차

'School > 머신러닝' 카테고리의 다른 글

선형분류 (0)	2022.04.06
과적합과 과소적합 (0)	2022.03.30
회귀분석에서의 변수선택 (0)	2022.03.30
다중회귀모형의 선택 (0)	2022.03.29
다중공선성 (0)	2022.03.29

현재글서브셋

응엉이의 엉엉코딩일기

라운드로빈 알고리즘, 자동차 종류 별 특정 옵션이 포함된 자동차 수 구하기, 집합, 오차 변화량, 서브셋, Theorem proving, 비선점형 스케줄링, 다중큐, 릿지회귀, Format, 파이썬, 선점형 스케줄링, wumpus wolrd, 랏소회귀, 가격대별 상품 개수 구하기, 인공지능입문, 문제은행, 알고리즘 평가 기준, FROM절 서브쿼리, Map,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

응엉이의 엉엉코딩일기

서브셋

최소제곱법의 결정적인 문제점(약점) 두가지

서브셋

최적 서브셋 회귀

회귀분석에서의 변수 선택

'School > 머신러닝' 카테고리의 다른 글

'School/머신러닝'의 다른글

티스토리툴바

서브셋

최소제곱법의 결정적인 문제점(약점) 두가지

서브셋

최적 서브셋 회귀

회귀분석에서의 변수 선택

'School > 머신러닝' 카테고리의 다른 글

'School/머신러닝'의 다른글

관련글

티스토리툴바