<aside> 💡 1번 10 점 2번 10 점 3번 10 점 4번 10 점 5번 10 점 ⇒ total : 50점
</aside>
다음 중 결정 트리에 관한 질문 중 틀린 것을 모두 고르시오.
결정 트리 알고리즘은 부모와 자식 노드 사이의 불순도 차이가 최대화되도록 학습한다.
결정트리에 아무 파라미터도 주지 않은 채 학습하면 오버피팅된다**.**
이진 분류에서 지니 불순도의 최대 값은 0.5이고 클수록 분류하기 좋지 않고**, 엔트로피 불순도는 낮을수록 분류하기 좋지 않다.** 불순도는 양성데이터와 음성데이터의 개수차이가 얼마나 나는지를 수치화 한 것으로 분류하기 좋은 것 보다는 분류가 잘 된 것이라 하는게 맞는 것 같다. 또한 엔트로피 불순도 또한 낮을 수록 분류가 잘 된 것이다.
결정트리에서 특성 중요도는 분류를 순수하게 잘 한 기여도이고, 특성 중요도가 높을 수록 해당 노드가 중요한 분류 기준이라는 것을 의미한다.
특성 중요도가 낮다는 것은 유용하지 않은 특성이다. - 결정에 많은 영향을 주지 않는다? 단지 그 특성을 선택하지 않았을 뿐, 다른 특성이 동일한 정보를 가져서 일 수도 있다.
답: 3, 5
<aside> 💡
맞습니다! 불순도는 모두 높을 수록 분류가 잘 되지 않았다는 것을 의미하고, 낮을 수록 분류가 잘 되었다고 볼 수 있습니다. 그래서 불순도는 낮을수록 좋다고 볼 수 있습니다. 특성 중요도와 유용성은 관계가 없습니다.
</aside>
<aside> 💡 맞습니다! extra trees의 경우, 랜덤하게 노드를 분할하기 때문에 계산 속도가 빠른 것이 장점이며(3번) 각 트리의 연관성이 아닌 독립성이 높아질수록 random forest의 성능이 높아집니다.
</aside>
답: 3,4
다음 내용 중 틀린 설명을 모두 고르시오.