1주차 문제 풀이
1.3 마켓과 머신러닝
- 이진분류 모델
k-최근접 이웃을 사용하여 2개의 종류를 분류하는 머신러닝 모델 (이진 분류)
2. 데이터 다루기
Google Colaboratory
2.1 훈련 세트와 테스트 세트
- 지도학습과 비지도학습의 차이
- 지도학습 = 입력과 타깃을 전달 → 학습 → 새로운 데이터 예측
- 비지도 학습 = 타깃 데이터가 없음. 주로 예측이 아닌 입력 데이터의 특징을 찾을 떄 활용
- 훈련 세트와 테스트 세트
- 모델을 평가할 때는 훈련에 참여하지 않은 샘플을 사용해야 한다.
- 훈련세트 = 모델을 훈련하는 데에만 사용
- 테스트 세트 = 모델 평가시에 사용. 주로 20~30%의 데이터를 테스트 세트로 사용한다.
- 핵심 함수
- seed() = 랜덤 함수의 결과를 동일하게 재현하고 싶을 때 사용!
- arange() = 일정한 간격의 정수 또는 실수 배열을 만든다!
2.2 데이터 전처리