1번
→ 3번 : k값을 지정해야 작동함
2번
from google.colab import files
uploaded = files.upload()
import pandas as pd
import io
data = pd.read_csv(io.StringIO(uploaded['CustomerDataSet.csv'].decode('utf-8')))
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn import preprocessing
processed_data = data.copy()
scaler = preprocessing.MinMaxScaler()
processed_data[['ItemsBought', 'ItemsReturned']] = scaler.fit_transform(processed_data[['ItemsBought', 'ItemsReturned']])
plt.figure(figsize = (10, 10))
for i in range(1,7):
estimator = KMeans(n_clusters = i)
ids = estimator.fit_predict(processed_data[['ItemsBought', 'ItemsReturned']])
plt.subplot(3, 2, i)
plt.tight_layout()
plt.title("K value = {}".format(i))
plt.xlabel('ItemsBought')
plt.ylabel('ItemsReturned')
plt.scatter(processed_data['ItemsBought'], processed_data['ItemsReturned'], c=ids)
plt.show()


3번
→ 4번 : 분산방식의 패턴을 간결하게 표현하는 것이 아니라.
데이터를 한 개의 축으로 그 분산이 가장 커지는 축을 주성분으로 두는 방식으로 표본의 차이를 가장 잘 나타내는 성분들로 분해하여 데이터 분석에 이점을 제공하는 것이다.
→ 2번 : 변수간의 상관관계를 고려하여 일반적으로 변수의 개수를 줄일 수 있음으로 가장 큰 분산을 갖는 방향이 중요한 정보를담는다고 말할 수 있으며 이를 통해 중요한 변수를 구분할 수 있다고 말할 수 있다.
4번