
분류를 할 때 중간에 어떤 특성을 기준으로 분류하고 있는지 보여줄 수 있는 방식으로 학습하는 머신러닝 알고리즘
전처리가 필요없다는 것이 특징임.
어떤 Feature가 중요한지를 기준으로 학습할 수 있음.
지니 불순도 :
$$ gini = 1-((\frac{true}{false})^2 + (\frac{false}{true})^2) $$
결정트리 손실함수?
부모노드와 자식노드의 불순도가 크도록 설정하여 학습(=정보이득)
엔트로피 불순도 라는 불순도도 있음
개발 세트 (Dev Set) 라고도 불림
추가 학습을 진행하려면 모델이 현재 과소·과대적합인지 알아야한다. 하지만, Test Set을 사용하면 추후 모델 평가 때 Test Score가 높게 나오는 문제점이 있다(≒ Train Set 다시 테스트). 모델 검증(과소·과대적합 확인)을 위해 Train Set에서 일부를 떼어 **검증 세트(Validation Set)**를 만든다.
테스트 셋과 검증 셋은 각각 **20~30%**의 비율로 나누는 것이 일반적이지만, 데이터가 충분히 크다면 적게 나누어도 문제 없음.