Model Selection
model selection 과정, 과정의 의미
Model Selection
model 선택
- model 선택 : 학습에 사용할 model 선택
- param. 선택 : 다양한 model param. 중 가장 적합한 param. 선택
- grid search : grid를 만들어 모든 param. 조합에 대해 교차검증
model evaluation
- 데이터 분할
- Holdout 교차검증 (train/validation/test dataset)
- k-fold cross validation
- underfitting/overfitting 판단 : 학습 곡선과 검증 곡선
- 어떤 model이 가장 적합한 model인지 판단
- evaluation matrix
Holdout 교차검증
같은 test set을 여러번 사용하게 될 경우 test set도 학습에 사용하게 되어 test set에 overfitting된 model이 선택됨
따라서 model 성능 검증시에는 test set이 아닌 다른 set을 사용해야 함
train set을 train set + validation set으로 나누어 train set으로는 학습, validation set으로는 모델 성능 검증
test set으로는 모델 성능 평가 (final performance estimate)
k-fold 교차검증
데이터셋을 k개의 subset으로 분리
특정 set에 overfit하는 것을 방지하기 위해 여러 fold로 나누어 validation set으로 검증 사용
회귀 Evaluation
학습곡선을 통해 underfitting인지 overfitting인지 판단할 수 있음
training accuarcy 낮고, validation accuracy 낮음 -> underfitting
training accuarcy 높고, validation accuracy 높음 -> good
training accuarcy 높고, validation accuracy 낮음 -> overfitting
underfitting | overfitting |
추가 feature 수집 regularization 정도를 낮춤 (변수 선택 효과의 제거) prarm. 수 증가 model 복잡도 높임 |
data 더 수집 차원 축소 feature selection 통한 차원 줄이기 regularization 정도 높임 param. 수 줄임 model 복잡도 낮춤 |
분류 Evaluation
confusion matrix를 이용해 판단할 수 있음 (각 수식의 의미 이해)
precision : FP (거짓 양성) 를 줄이는 것이 목표가 될 때 중요한 지표
recall : FN (거짓 음성) 을 줄이는 것이 중요할 때 = 모든 양성 sample을 식별해야 할 때 중요
F1-score : 둘 다 중요