결정 트리 (Decision Tree)

트리 (Tree)

Untitled

결정 트리

분류를 할 때 중간에 어떤 특성을 기준으로 분류하고 있는지 보여줄 수 있는 방식으로 학습하는 머신러닝 알고리즘

전처리가 필요없다는 것이 특징임.

어떤 Feature가 중요한지를 기준으로 학습할 수 있음.

불순도

지니 불순도 :

$$ gini = 1-((\frac{true}{false})^2 + (\frac{false}{true})^2) $$

결정트리 손실함수?

부모노드와 자식노드의 불순도가 크도록 설정하여 학습(=정보이득)

엔트로피 불순도 라는 불순도도 있음

교차검증과 그리드 서치

검증 세트 (Validation Set)

개발 세트 (Dev Set) 라고도 불림

추가 학습을 진행하려면 모델이 현재 과소·과대적합인지 알아야한다. 하지만, Test Set을 사용하면 추후 모델 평가 때 Test Score가 높게 나오는 문제점이 있다(≒ Train Set 다시 테스트). 모델 검증(과소·과대적합 확인)을 위해 Train Set에서 일부를 떼어 **검증 세트(Validation Set)**를 만든다.

테스트 셋과 검증 셋은 각각 **20~30%**의 비율로 나누는 것이 일반적이지만, 데이터가 충분히 크다면 적게 나누어도 문제 없음.