Chapter04 | Notion

#데이터셋 준비
import pandas as pd
fish = pd.read_csv('<https://bit.ly/fish_csv_data>')

fish_input = fish[['Weight', 'Length', 'Diagonal', 'Height', 'Width']].to_numpy()
fish_target = fish['Species'].to_numpy()

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

train_input, test_input, train_target, test_target = train_test_split(fish_input, fish_target, random_state = 42)

ss = StandardScaler()
ss.fit(train_input)
train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

4-1 로지스틱 회귀

로지스틱 회귀는 회귀지만 분류모델이다.
선형 회귀와 동일하게 선형 방정식을 학습한다.
z = a * weight + b * length + c * diagonal + d * height + e * width + f
z값을 확률로 나타내야 하는데 이 때 시그모이드 함수를 사용한다.
시그모이드 함수

$$ \phi = \frac{1}{1+e^{-z}} $$

로지스틱 회귀로 이진분류

넘파이 배열을 통해 두 종류의 생선만 남겨보자.

bream_smelt_indexes = (train_target == 'Bream') | (train_target == 'Smelt')
train_bream_smelt = train_scaled[bream_smelt_indexes]
target_bream_smelt = train_target[bream_smelt_indexes]

로지스틱 회귀 모델을 훈련시킨 뒤 샘플의 예측값을 출력해보자.

from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()
lr.fit(train_bream_smelt, target_bream_smelt)
print(lr.predict(train_bream_smelt[:5])) #['Bream' 'Smelt' 'Bream' 'Bream' 'Bream']

두 번째 값만 Smelt인 것을 확인할 수 있다.
샘플의 예측 확률은 predict_proba로 확인할 수 있다.

print(lr.predict_proba(train_bream_smelt[:5]))
'''
[[0.99759855 0.00240145]
 [0.02735183 0.97264817]
 [0.99486072 0.00513928]
 [0.98584202 0.01415798]
 [0.99767269 0.00232731]]
'''