Chapter 2 | Notion

데이터 다루기

1. 훈련 세트와 테스트 세트

머신러닝 알고리즘 = 지도 학습(supervised learning) + 비지도 학습(unsupervised learning) + 강화 학습(reinforcement learning)

지도 학습 알고리즘 : 훈련하기 위한 데이터와 정답이 필요 ⇒ 알고리즘이 정답을 맞히는 것을 학습

→ 입력과 타깃을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측하는 데 활용
- 데이터 = 입력(input)
- 정답 = 타깃(target)
- 입력 + 타깃 = 훈련 데이터(training data)
- 입력으로 사용된 세부 데이터 = 특성(feature)
  
  → 예 : 도미와 빙어를 구분하는 데 사용한 길이와 무게
- 예 : k-최근접 이웃
비지도 학습 알고리즘 : 타깃 없이 입력 데이터만 사용 ⇒ 입력 데이터만 있을 때에 사용

→ 입력 데이터에서 어떤 특징을 찾는 데 주로 활용
강화 학습 알고리즘 : 알고리즘이 행동한 결과로 얻은 보상을 사용해 학습

훈련 세트와 테스트 세트

훈련 세트 : 훈련에 사용되는 데이터
테스트 세트 : 평가에 사용하는 데이터

⇒ 머신러닝 알고리즘의 성능을 제대로 평가하려면 훈련 데이터와 평가에 사용할 데이터가 각각 달라야 함

# 도미와 빙어의 데이터(49개의 샘플)
fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 
                31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 
                35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8, 
                10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 
                500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 
                700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0, 6.7, 
                7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

fish_data = [[l,w] for l,w in zip(fish_length,fish_weight)] # 각 생선의 길이와 무게를 하나의 리스트로 담은 2차원 리스트
fish_target = [1]*35 + [0]*14

# 사이킷런 임포트, 모델 객체 만들기
from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier()

# 처음 35개 샘플을 훈련 세트로 선택, 나머지 14개 샘플을 테스트 세트로 선택
train_input = fish_data[:35] # 훈련 세트로 입력값 중 0~34번째 인덱스까지 사용
train_target = fish_target[:35] # 훈련 세트로 타깃값 중 0~34번째 인덱스까지 사용
test_input = fish_data[35:]
test_target = fish_target[35:]

kn = kn.fit(train_input,train_target) # 모델 훈련
kn.score(test_input,test_target) # 평가결과 : 정확도가 0.0

샘플링 편향 : 훈련 세트와 테스트 세트에 샘플이 골고루 섞여 있지 않으면, 샘플링이 한쪽으로 치우친다

⇒ 골고루 샘플을 뽑아서 훈련 세트와 테스트 세트를 만들어야 함 !

→ 넘파이(numpy) 이용 : 파이썬의 대표적인 배열 라이브러리

# numpy 도입해서, 고차원의 배열 만들기
import numpy as np
input_arr = np.array(fish_data)
target_arr = np.array(fish_target)
print(input_arr.shape) # (샘플 수(행ㅡ), 특성 수(열ㅣ)) 을 출력

np.random.seed(42) # 일정한 결과를 얻기 위해 초기에 랜덤 시드(random seed)를 지정
index = np.arange(49)
np.random.shuffle(index) #주어진 배열 무작위로 섞기

# 랜덤하게 35개의 샘플을 훈련 세트, 나머지 14개를 테스트 세트로 만들기
train_input = input_arr[index[:35]]
train_target = target_arr[index[:35]]
test_input = input_arr[index[35:]]
test_target = target_arr[index[35:]]

import matplotlib.pyplot as plt
plt.scatter(train_input[:,0],train_input[:,1])
plt.scatter(test_input[:,0],test_input[:,1])
plt.legend(['train set','test set'])
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

# 샘플이 골고루 섞여 있게끔 훈련 세트와 테스트 세트를 만든 후 -> 머신러닝 평가
kn = kn.fit(train_input,train_target) # 모델 훈련
kn.score(test_input,test_target) # 평가 : 정확도 1.0(100%)