회귀의 개념과 회귀 알고리즘의 종류에 대하여 다룹니다
두 변수 사이의 관계를 분석하는 문제, 임의의 수치를 예측하는 문제
데이터의 이웃한 K개의 데이터를 찾아 이웃데이터의 평균을 반환
단점 : 테스트 데이터가 학습데이터와 많이 떨어져있다면 예측 어려움
$$ R^2 = 1 - \frac {\sum(타깃 - 예측)^2}{\sum(타깃-평균)^2} $$
예측값이 타깃들을 얼마나 설명해 주는지 알려주는 지표
1에 가까우면 성능 좋음, 0에 가까우면 성능 안좋음
<<근데 이거 의미하는 바가 뭔데?😵😵
[R] 결정계수(R-Squared)의 의미와 계산 방법
$$ E = |실제값 - 실험값| $$
실제값과 실험값의 차이를 절대값으로 나타낸 것
$$ E = \frac{\sum|실제 - 실험|}{n} $$
$$ MSE = \frac {\sum(실제 - 예측)^2}{n} $$
과대적합(overfitting) 훈련세트만 잘 맞는 모델 세로운 세트 예측에 대한 정확성이 떨어짐 훈련점수 ≫ 테스트점수
**과소적합(underfitting) 모델이 단순(데이터 적음)**하여, 훈련이 덜 된경우
테스트점수 ≥ 훈련점수
KNN 회귀모델에서 과소적합(underfitting) 해결법 모델 풍부(데이터 늘리기)하게 하거나, 모델 복잡하게(K 값을 감소) 하면 됨
특성과 타깃관계를 잘 나타내는 선형 방정식을 찾는 문제
2차원에서는 직선방정식을 찾는 문제
계수, 가중치를 찾는 문제
$y = ax + b$
모델에서 학습을 통해 도출된 파라미터
선형 회귀 모델에서 계수와 가중치(a, b) 값을 의미함
다항식을 이용하여 방정식을 찾는 문제 (선형회귀)
단순히 선형 회귀에서 차수가 높은 변수를 추가해주면 된다
요약 : 2차항이 있어도 2차항 자체를 1차항으로 치환할 수 있으므로 선형이다
2개 이상의 특성을 이용하여 선형회귀 분석 하는 것
결국 선형회귀와 원리는 같다. 변수만 추가된 것
기존 특성을 이용하여 새로운 특성을 만드는 행위
모델의 과대적합(Overfitting)을 방지하는 역할
릿지와 라쏘는 선형 회귀 모델에 규제를 추가한 모델입니다.
계수의 제곱값을 기준으로 모델을 규제
계수의 크기를 줄여 과대적합 방지
더 많이쓰는 방식
계수의 절댓값을 기준으로 모델을 규제
릿지와 동일하게 계수의 크기를 줄여 과대적합 방지
계수의 값을 0으로 만들 수 있기에 유용한 특성을 추적하는데 유용
모델 학습 시 사람이 알려줘야하는 파라미터