<aside> 💡 1번 10 점 2번 10 점 3번 10 점 4번 10 점 5번 10 점 ⇒ total : 50점

</aside>

이론 문제1

다음 중 결정 트리에 관한 질문 중 틀린 것을 모두 고르시오.

  1. 결정 트리 알고리즘은 부모와 자식 노드 사이의 불순도 차이가 최대화되도록 학습한다.

  2. 결정트리에 아무 파라미터도 주지 않은 채 학습하면 오버피팅된다**.**

  3. 이진 분류에서 지니 불순도의 최대 값은 0.5이고 클수록 분류하기 좋지 않고**, 엔트로피 불순도는 낮을수록 분류하기 좋지 않다.** 불순도는 양성데이터와 음성데이터의 개수차이가 얼마나 나는지를 수치화 한 것으로 분류하기 좋은 것 보다는 분류가 잘 된 것이라 하는게 맞는 것 같다. 또한 엔트로피 불순도 또한 낮을 수록 분류가 잘 된 것이다.

  4. 결정트리에서 특성 중요도는 분류를 순수하게 잘 한 기여도이고, 특성 중요도가 높을 수록 해당 노드가 중요한 분류 기준이라는 것을 의미한다.

  5. 특성 중요도가 낮다는 것은 유용하지 않은 특성이다. - 결정에 많은 영향을 주지 않는다? 단지 그 특성을 선택하지 않았을 뿐, 다른 특성이 동일한 정보를 가져서 일 수도 있다.

답: 3, 5

<aside> 💡

맞습니다! 불순도는 모두 높을 수록 분류가 잘 되지 않았다는 것을 의미하고, 낮을 수록 분류가 잘 되었다고 볼 수 있습니다. 그래서 불순도는 낮을수록 좋다고 볼 수 있습니다. 특성 중요도와 유용성은 관계가 없습니다.

</aside>

이론 문제2

<aside> 💡 맞습니다! extra trees의 경우, 랜덤하게 노드를 분할하기 때문에 계산 속도가 빠른 것이 장점이며(3번) 각 트리의 연관성이 아닌 독립성이 높아질수록 random forest의 성능이 높아집니다.

</aside>

답: 3,4

다음 내용 중 틀린 설명을 모두 고르시오.

  1. 집단의 데이터 개수만큼을 복원 추출하는 bootstrap은 모집단과 표본 집단을 추정 가능하게 한다.
  2. Histogram-based Gradient Boosting은 정형 데이터를 높은 성능으로 다룬다.
  3. 트리의 랜덤성이 클수록 방대한 양의 트리를 훈련해야 하기 때문에 필연적으로 ****계산 속도가 느려지는 문제가 발생한다. 랜덤성이 클수록 계산속도가 빨라진다. 대표적인 예시로 트리를 랜덤하게 분할하는 엑스트라 트리가 렌덤포레스트 보다 빠르다.
  4. random forest에서 각각의 트리는 오버피팅될 수 있으나 각 트리의 연관성이 높을수록 random forest의 성능이 높아진다. Random Forest는 과대적합이 있는 트리가 있으면, 다른 쪽으로 과대적합이 되게 하여, 과대적합을 막는 알고리즘이므로, 트리의 연관성이 없을 수록 성능이 높아진다고 할 수 있다.
  5. 회귀와 분류 모두에 이용 가능한 gradient boosting은 손실 함수, 약한 학습자들을 포함한다.

실습 문제3