Today I Learned/머신러닝

Cross Validation (교차검증) 이란?

하나719 2020. 11. 12. 13:20
반응형

Cross Validation (교차검증)

출처: scikit-learn

모델을 train 시킬 때 데이터셋을 train, test 로 나누게된다. 이때, train: test = 8:2로 나누었다고 하면 하나의 고정된 train data로 학습시키고, 하나의 고정된 test data로 검증하다 보니 이 데이터셋에만 잘맞는 학습결과, 과적합(overfitting)이 일어날 수 있다.

이를 해결하고자 교차검증(cross valication)을 활용한다.

 

교차검증의 컨셉은, 전체 데이터를 fold로 나누어서 각각이 모두 중복없이 test set, train set 에 한번씩 들어가게 하는 것이다.

그리고 마지막으로 평균을 내어서 (다른 방법도 있다) 최종적 모델의 성능을 평가한다.  

 

모델 하나를 평가하는데 fold5개일 때 기준으로 train, test 세트 5개의 평균이 사용되는 것이다.

 


참고 링크: scikit-learn.org/stable/modules/cross_validation.html

 

3.1. Cross-validation: evaluating estimator performance — scikit-learn 0.23.2 documentation

3.1. Cross-validation: evaluating estimator performance Learning the parameters of a prediction function and testing it on the same data is a methodological mistake: a model that would just repeat the labels of the samples that it has just seen would have

scikit-learn.org

 

 

반응형