주성분 분석

1. 차원과 차원 축소

차원 : 1만개 픽셀 사진은 1만개의 특성 존재 → 차원을 줄일 수 있다면 저장 공간 크게 절약

차원 축소 알고리즘

특성이 많으면 선형 모델의 성능이 높아지고 훈련 데이터에 쉽게 과대적합 됨
차원 축소 : 데이터를 가장 잘 나타내는 일부 특성을 선택 → 데이터 크기 ⬇️ , 지도 학습 모델의 성능 ⬆️
또한 줄어든 차원에서 다시 원본 차원으로 손실을 최대한 줄이면서 복원 가능

2. 주성분 분석

주성분 분석 = PCA (Principal Component Analysis)

데이터에 있는 분산이 큰 방향을 찾는 것 = 데이터를 잘 표현하는 어떤 벡터를 찾는 것
분산 : 데이터가 널리 퍼져 있는 정도

→ 분산이 큰 방향

→ 분산이 큰 방향

주성분 : 위의 2차원 데이터에서 화살표의 방향이 분산이 큰 방향, 만약 이 직선이 원점에서 출발한다면 두 원소로 이루어진 벡터로 표현 가능, 이 벡터가 주성분
- 주성분 벡터의 원소 개수 = 원본 데이터셋의 특성 개수 (주성분의 차원 = 원본 차원)
- 주성분으로 바꾼 데이터 → 차원 축소
두 번째 주성분 : 첫 번째 주성분에 수직이고 분산이 가장 큰 다음 방향을 나타내는 벡터
- 이렇게 진행하다보면, 주성분의 개수 = 원본 특성의 개수

PCA 클래스

원본 데이터 재구성 (복원)

설명된 분산 (Explained Variance)

설명된 분산 : 주성분이 원본 데이터의 분산을 얼마나 잘 나타내는지 기록한 값 → 첫 번째 주성분의 설명된 분산이 가장 큼
- 각 분산 비율을 모두 더하면 총 분산 비율 얻을 수 있음

<aside> 📌 pca.explained_variance_ratio_ : 각 주성분의 설명된 분산 값

</aside>