5주차 | Notion

1번

→ 3번 : k값을 지정해야 작동함

2번

from google.colab import files
uploaded = files.upload()

import pandas as pd
import io
data = pd.read_csv(io.StringIO(uploaded['CustomerDataSet.csv'].decode('utf-8')))

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn import preprocessing

processed_data = data.copy()
scaler = preprocessing.MinMaxScaler()
processed_data[['ItemsBought', 'ItemsReturned']] = scaler.fit_transform(processed_data[['ItemsBought', 'ItemsReturned']])
plt.figure(figsize = (10, 10))

for i in range(1,7):
   estimator = KMeans(n_clusters = i)
   ids = estimator.fit_predict(processed_data[['ItemsBought', 'ItemsReturned']])
   plt.subplot(3, 2, i)
   plt.tight_layout()
   plt.title("K value = {}".format(i))
   plt.xlabel('ItemsBought')
   plt.ylabel('ItemsReturned')
   plt.scatter(processed_data['ItemsBought'], processed_data['ItemsReturned'], c=ids)  
plt.show()

Untitled

3번

→ 4번 : 분산방식의 패턴을 간결하게 표현하는 것이 아니라.

데이터를 한 개의 축으로 그 분산이 가장 커지는 축을 주성분으로 두는 방식으로 표본의 차이를 가장 잘 나타내는 성분들로 분해하여 데이터 분석에 이점을 제공하는 것이다.

→ 2번 : 변수간의 상관관계를 고려하여 일반적으로 변수의 개수를 줄일 수 있음으로 가장 큰 분산을 갖는 방향이 중요한 정보를담는다고 말할 수 있으며 이를 통해 중요한 변수를 구분할 수 있다고 말할 수 있다.

4번