문제1

1. 결정 트리는 데이터의 누락 값을 처리하기위해 대체값을 사용하거나 샘플을 분류하는데 사용한 다른 특성들을 사용할 수 있다.
O

2.  랜덤 포레스트에서 모든 결정 트리는 동일한 훈련 데이터를 사용하여 학습한다. 
X 서로 다른 데이터이다. 무작위로 추출한다.

3.  앙상블 기법 중 배깅(Bagging)은 약한 학습기들의 결과를 동일한 가중치를 부여하여 결합하는 앙상블 기법이다. 
O

~~4.  히스토그램 기반 그레이디언트 부스팅은 강한 학습기로 결정 트리를 사용하는 앙상블 방법이다.~~ 
O

~~5.  주성분 분석은 원래 데이터의 평균과 분산을 최대한 보존하면서 차원을 축소한다.~~
O

6.  엘보우 방법은 클러스터의 개수를 결정할 때 사용되는 지표 중 하나로 
클러스터링 알고리즘을 여러 번 실행해 결과를 비교해야하며, 클러스터 개수에 따른 왜곡의 증가 속도를 분석하여 최적의 클러스터 개수를 찾는 방법이다. 
X (엘보우 방법은 클러스터 개수에 따른 왜곡(inertia) 값을 이용해 최적의 클러스터 개수를 찾는 방법으로,
 클러스터 개수가 증가함에 따라 왜곡이 감소하는데, 이 감소하는 속도가 둔화되는 지점(팔꿈치 모양)을 찾아 최적의 클러스터 개수를 결정하는 방법)

~~7. 인공신경망 모델은 지도학습에 모두 사용될 뿐만 아니라 일부 비지도학습에도 사용될 수 있다.~~ 
O

~~8. 히스토그램을 만들때 샘플의 픽셀들의 평균값(mean함수를 구할때) axis=0을 사용한다. 
O~~

9. k-평균 알고리즘의 n_clusters에 따라 labels_배열의 크기가 정해진다. 
O

10. figsize는 ratio 매개 변수에 반비례하여 커지고 ratio의 기본값은 1이다
X 비례하여

11. 최적의 클러스터를 찾기 위해 알고리즘이 반복한 횟수는 KMeans 클래스의 
iter_속성에 저장된다. 
X : n_iter_ 속성에 저장

12. k-평균 알고리즘에서 최적의 클러스터 개수는 교차검증을 사용하여 구할 수 있다. 
X . 엘보우 메쏘드 등 이용

13. 샘플의 개수가 1000개이고 특성 개수가 100개인 데이터 셋에서 PCA클래스를 이용해 10개의 주성분을 찾아 변환한다면, 이 데이터셋의 크기는 (10, 1000)이다.
x (1000,10)

문제2

1. 
"K-평균 알고리즘은 평균값을 자동으로 찾아준다고 한다."
-> 클러스터의 *중심값을* 찾는다.

2. 
"결국 K-평균 알고리즘이란 지정한 K개의 클러스터 중심에서 점차 가장 가까운 샘플의 중심으로 이동하는 알고리즘이다."
->  클러스터 중심과 *가장 가까운 샘플들을 이용하여 클러스터를 구성하*는 알고리즘이다.

3. 
"이때, 초기 지정한 K개의 클러스터에 따라 계산 횟수가 적어져 시간을 아낄 수 있다."
-> 이때, 초기 클러스터 중심의 위치가 잘못 지정될 경우 수렴 속도가 늦어지므로 적절한 초기화를 해야한다.

문제3~5

Google Colaboratory