반응형
Cross Validation (교차검증)
모델을 train 시킬 때 데이터셋을 train, test 로 나누게된다. 이때, train: test = 8:2로 나누었다고 하면 하나의 고정된 train data로 학습시키고, 하나의 고정된 test data로 검증하다 보니 이 데이터셋에만 잘맞는 학습결과, 과적합(overfitting)이 일어날 수 있다.
이를 해결하고자 교차검증(cross valication)을 활용한다.
교차검증의 컨셉은, 전체 데이터를 fold로 나누어서 각각이 모두 중복없이 test set, train set 에 한번씩 들어가게 하는 것이다.
그리고 마지막으로 평균을 내어서 (다른 방법도 있다) 최종적 모델의 성능을 평가한다.
모델 하나를 평가하는데 fold5개일 때 기준으로 train, test 세트 5개의 평균이 사용되는 것이다.
참고 링크: scikit-learn.org/stable/modules/cross_validation.html
반응형
'Today I Learned > 머신러닝' 카테고리의 다른 글
[텍스트분석] TDM (Term Document Matrix) 단어 문서 행렬 (0) | 2020.11.27 |
---|---|
[자연어처리] konlpy 설치하고 불러오기 (0) | 2020.11.20 |
K-means Clustering with Python (0) | 2020.11.06 |
엑셀로 추천시스템 유저프로필 만들어보기 (0) | 2020.09.30 |
영화 리뷰 평점 예측해보기 (0) | 2020.09.30 |