02-1 훈련 세트와 테스트 세트

이전 학습의 문제점

이전 모델을 학습 시킬 때, 이미 알려준 데이터로만 테스트 하여 100%의 정확도를 얻었다. 새로운 데이터가 들어왔을 때의 정확도는 알 수 없다.

데이터의 샘플 중 일부를 테스트 용 데이터로 남겨두고 모델을 학습시킨다. 테스트 데이터는 학습이 끝난 후 사용한다.

Untitled

학습 데이터와 테스트 데이터의 비율은 보통 8:2로 나눔

데이터 세트가 작은 경우(n < 10k) 7:3이 권장

n < 1k인 경우 k-겹 교차 검증 - 모든 데이터를 훈련에 사용

극적인 예로, 훈련 데이터에 하나의 클래스만 가진 데이터만 있다면 모델은 모든 샘플을 훈련 데이터에 있던 하나의 클래스로 분류하게 됨

랜덤하게 샘플을 섞은 뒤 훈련-테스트 데이터를 분리해야 됨

K-NN 알고리즘은 데이터 간의 거리를 이용한다. 만약 각각의 특성이 나타내는 수의 범위가 다르다면 범위가 큰 특성이 결과에 더 큰 영향을 미치게 된다.