성능을 제대로 확인하기 위해서는 훈련 세트와 테스트 세트가 겹쳐서는 안됨.
새로운 데이터를 가져오거나 전체 데이터에서 훈련 세트와 테스트 세트로 나눔. 보통 후자를 선택.
훈련 세트와 테스트 세트가 골고루 섞이지 않은 경우 정확도가 제대로 나오지 않음. 이를 샘플링 편향이라고 함.