다음 중 KMeans에 관한 질문 중 틀린 것을 고르시오.
혼공이는 이번에 배운 KMeans를 실습하고자 한다. MinMaxScaler()를 이용해서 전처리를 진행한 후 ItemsBought과 ItemsReturned로 클러스터링을 하려고 한다. 반복문을 이용하여 여러 k값을 넣어 아래의 그래프를 만들었다.
from google.colab import files
uploaded = files.upload()
import pandas as pd
import io
data = pd.read_csv(io.StringIO(uploaded['CustomerDataSet.csv'].decode('utf-8')))
출력
다음과 같이 KMeans 클래스를 이용해 k값을 여러개 넣어 확인해주세요.
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans
customer = data[['ItemsBought', 'ItemsReturned']]
scaler = MinMaxScaler()
customer_scaled = scaler.fit_transform(customer)
f, axs = plt.subplots(3, 2, figsize=(10, 10))
plt.subplots_adjust(wspace=0.2, hspace=0.5)
for i in range(3):
for j in range(2):
k = 2*i+j+1
km = KMeans(n_clusters=k)
km.fit(customer_scaled)
for w in range(k):
axs[i, j].scatter(customer_scaled[km.labels_ == w, 0], customer_scaled[km.labels_ == w, 1])
axs[i, j].set_title("K value = %d"%k)
axs[i, j].set_xlabel("ItemsBought")
axs[i, j].set_ylabel("ItemsReturned")
plt.show()

다음 중 PCA에 대해 틀린 것을 모두 고르시오.