주성분 분석
1. 차원과 차원 축소
- 차원 : 1만개 픽셀 사진은 1만개의 특성 존재 → 차원을 줄일 수 있다면 저장 공간 크게 절약
차원 축소 알고리즘
- 특성이 많으면 선형 모델의 성능이 높아지고 훈련 데이터에 쉽게 과대적합 됨
- 차원 축소 : 데이터를 가장 잘 나타내는 일부 특성을 선택 → 데이터 크기 ⬇️ , 지도 학습 모델의 성능 ⬆️
- 또한 줄어든 차원에서 다시 원본 차원으로 손실을 최대한 줄이면서 복원 가능
2. 주성분 분석
주성분 분석 = PCA (Principal Component Analysis)
- 데이터에 있는 분산이 큰 방향을 찾는 것 = 데이터를 잘 표현하는 어떤 벡터를 찾는 것
- 분산 : 데이터가 널리 퍼져 있는 정도

→ 분산이 큰 방향
- 주성분 : 위의 2차원 데이터에서 화살표의 방향이 분산이 큰 방향, 만약 이 직선이 원점에서 출발한다면 두 원소로 이루어진 벡터로 표현 가능, 이 벡터가 주성분
- 주성분 벡터의 원소 개수 = 원본 데이터셋의 특성 개수 (주성분의 차원 = 원본 차원)
- 주성분으로 바꾼 데이터 → 차원 축소
- 두 번째 주성분 : 첫 번째 주성분에 수직이고 분산이 가장 큰 다음 방향을 나타내는 벡터
- 이렇게 진행하다보면, 주성분의 개수 = 원본 특성의 개수
PCA 클래스
원본 데이터 재구성 (복원)
설명된 분산 (Explained Variance)
- 설명된 분산 : 주성분이 원본 데이터의 분산을 얼마나 잘 나타내는지 기록한 값 → 첫 번째 주성분의 설명된 분산이 가장 큼
- 각 분산 비율을 모두 더하면 총 분산 비율 얻을 수 있음
<aside>
📌 pca.explained_variance_ratio_ : 각 주성분의 설명된 분산 값
</aside>