응엉잉 2023. 4. 25. 03:26

model selection 과정, 과정의 의미

Model Selection

model 선택

  • model 선택 : 학습에 사용할 model 선택
  • param. 선택 : 다양한 model param. 중 가장 적합한 param. 선택
    • grid search : grid를 만들어 모든 param. 조합에 대해 교차검증

model evaluation

  • 데이터 분할
    • Holdout 교차검증 (train/validation/test dataset)
    • k-fold cross validation
  • underfitting/overfitting 판단 : 학습 곡선과 검증 곡선
  • 어떤 model이 가장 적합한 model인지 판단
  • evaluation matrix

Holdout 교차검증

같은 test set을 여러번 사용하게 될 경우 test set도 학습에 사용하게 되어 test set에 overfitting된 model이 선택됨

따라서 model 성능 검증시에는 test set이 아닌 다른 set을 사용해야 함

train set을 train set + validation set으로 나누어 train set으로는 학습, validation set으로는 모델 성능 검증

test set으로는 모델 성능 평가 (final performance estimate)

 

k-fold 교차검증

데이터셋을 k개의 subset으로 분리

특정 set에 overfit하는 것을 방지하기 위해 여러 fold로 나누어 validation set으로 검증 사용 

회귀 Evaluation

학습곡선을 통해 underfitting인지 overfitting인지 판단할 수 있음

training accuarcy 낮고, validation accuracy 낮음 -> underfitting

training accuarcy 높고, validation accuracy 높음 -> good

training accuarcy 높고, validation accuracy 낮음 -> overfitting

underfitting overfitting
추가 feature 수집
regularization 정도를 낮춤 (변수 선택 효과의 제거)
prarm. 수 증가
model 복잡도 높임
data 더 수집
차원 축소
feature selection 통한 차원 줄이기
regularization 정도 높임
param. 수 줄임
model 복잡도 낮춤

 

분류 Evaluation

confusion matrix를 이용해 판단할 수 있음 (각 수식의 의미 이해)

precision : FP (거짓 양성) 를 줄이는 것이 목표가 될 때 중요한 지표

recall : FN (거짓 음성) 을 줄이는 것이 중요할 때 = 모든 양성 sample을 식별해야 할 때 중요

F1-score : 둘 다 중요