문제 1

정답

3

풀이

  1. KMeans는 클러스터 개수인 k값을 지정해주어야 작동한다. 추가적으로 실전에서 KMeans 값을 알기 어렵다는 점을 해결하기 위해 엘보우 방법을 사용한다

문제 2

from google.colab import files
uploaded = files.upload()

import pandas as pd
import io
data = pd.read_csv(io.StringIO(uploaded['CustomerDataSet.csv'].decode('utf-8')))

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(data)
data_scaled = scaler.transform(data)

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

for i in range(1, 7):
  model = KMeans(n_clusters=i, random_state=42)
  model.fit(data_scaled[:, 1:3])
  label = model.labels_

  fig, ax = plt.subplots()
  ax.scatter(data_scaled[:, 1], data_scaled[:, 2], c=label)
  ax.set_xlabel('ItemBought')
  ax.set_ylabel('ItemsReturned')
  ax.set_title('K value = %d'%(i))

문제 3

정답

2, 4

풀이