Chap 05-1 결정 트리

: 분류와 회귀 모두 가능한 지도 학습 모델 중 하나이다.

특정 기준 ( 질문 ) 에 따라 데이터를 구분하는 모델

한번의 분기 때마다 변수 영역을 두 개로 구분

Untitled

노드 ( node ) :결정 트리에서 질문이나 정답을 담은 상자

첫 질문 ( root node ) : 맨 처음 분류 기준

Terminal node, leaf node : 맨 마지막 노드

Untitled

1 ) 데이터를 가장 잘 구분할 수 있는 질문을 기준으로 나눈다.

  1. 나뉜 범주에서 다시 데이터를 잘 구분할 수 있는 질문을 기준으로 나눈다. 이때 결정 트리에 파라미터를 주지 않고 모델링 할 경우 오버 피팅이 될 수 있다.

가지치기 ( Pruning )

오버피팅을 막기 위한 전략

트리에 가지가 많을 경우 오버피팅이 발생함으로 최대 깊이나 터미널 노드의 최대 개수, 한 노드가 분할하기 위한 최소 데이터 수를 제한하는 것이다. ( sklearn은 사전 가지치기만 지원 )