# 1.
다음 중 결정 트리에 관한 질문 중 틀린 것을 모두 고르시오.
- 결정 트리 알고리즘은 부모와 자식 노드 사이의 불순도 차이가 최대화되도록 학습한다.
- 결정 트리에 아무 파라미터도 주지 않은 채 학습하면 오버피팅된다.
- 이진 분류에서 지니 불순도의 최대 값은 0.5이고 클수록 분류하기 좋지 않고, 엔트로피 불순도는 낮을수록 분류하기 좋지 않다.
- 결정트리에서 특성 중요도는 분류를 순수하게 잘한 기여도이고, 특성 중요도가 높을수록 해당 노드가 중요한 분류 기준이라는 것을 의미한다.
- 특성 중요도가 낮다는 것은 유용하지 않은 특성이다.
⇒ 정답 : 3, 5
2 : 결정 트리에 아무 파라미터도 주지 않을 경우 트리가 적정 수준에서 잘라지지 않고 훈련데이터에 너무 맞추려고 해서 overfitting이 발생함
3 : 엔트로피 불순도도 클수록 분류하기 좋지 않음
4 : 노드는 한 특성의 값을 기준으로 분리가 됨 ⇒ 특성 중요도가 높음 → 불순도가 크게 감소 → 해당 노드가 중요한 분류 기준
5 : 특성 중요도가 낮다고 해서 그 특성이 유용하지 않다는 것은 아님 ⇒ 트리가 그 특성을 선택하지 않았거나, 다른 특성이 동일한 정보를 지니고 있기 때문
# 2.
다음 내용 중 틀린 설명을 모두 고르시오.
- 집단의 데이터 개수만큼을 복원 추출하는 bootstrap은 모집단과 표본 집단을 추정 가능하게 한다.
- Histogram-based Gradient Boosting은 정형 데이터를 높은 성능으로 다룬다.
- 트리의 랜덤성이 클수록 방대한 양의 트리를 훈련해야 하기 때문에 필연적으로 계산 속도가 느려지는 문제가 발생한다.