# 1.

다음 중 결정 트리에 관한 질문 중 틀린 것을 모두 고르시오.

  1. 결정 트리 알고리즘은 부모와 자식 노드 사이의 불순도 차이가 최대화되도록 학습한다.
  2. 결정 트리에 아무 파라미터도 주지 않은 채 학습하면 오버피팅된다.
  3. 이진 분류에서 지니 불순도의 최대 값은 0.5이고 클수록 분류하기 좋지 않고, 엔트로피 불순도는 낮을수록 분류하기 좋지 않다.
  4. 결정트리에서 특성 중요도는 분류를 순수하게 잘한 기여도이고, 특성 중요도가 높을수록 해당 노드가 중요한 분류 기준이라는 것을 의미한다.
  5. 특성 중요도가 낮다는 것은 유용하지 않은 특성이다.

⇒ 정답 : 3, 5

2 : 결정 트리에 아무 파라미터도 주지 않을 경우 트리가 적정 수준에서 잘라지지 않고 훈련데이터에 너무 맞추려고 해서 overfitting이 발생함

3 : 엔트로피 불순도도 클수록 분류하기 좋지 않음

4 : 노드는 한 특성의 값을 기준으로 분리가 됨 ⇒ 특성 중요도가 높음 → 불순도가 크게 감소 → 해당 노드가 중요한 분류 기준

5 : 특성 중요도가 낮다고 해서 그 특성이 유용하지 않다는 것은 아님 ⇒ 트리가 그 특성을 선택하지 않았거나, 다른 특성이 동일한 정보를 지니고 있기 때문


# 2.

다음 내용 중 틀린 설명을 모두 고르시오.

  1. 집단의 데이터 개수만큼을 복원 추출하는 bootstrap은 모집단과 표본 집단을 추정 가능하게 한다.
  2. Histogram-based Gradient Boosting은 정형 데이터를 높은 성능으로 다룬다.
  3. 트리의 랜덤성이 클수록 방대한 양의 트리를 훈련해야 하기 때문에 필연적으로 계산 속도가 느려지는 문제가 발생한다.