이론문제 1 답: 3, 5
다음 중 결정 트리에 관한 질문 중 틀린 것을 모두 고르시오.
- 결정 트리 알고리즘은 부모와 자식 노드 사이의 불순도 차이가 최대화되도록 학습한다.
- 결정트리에 아무 파라미터도 주지 않은 채 학습하면 오버피팅된다**.**
- 이진 분류에서 지니 불순도의 최대 값은 0.5이고 클수록 분류하기 좋지 않고**, 엔트로피 불순도는 낮을수록 분류하기 좋지 않다.**
- 결정트리에서 특성 중요도는 분류를 순수하게 잘 한 기여도이고, 특성 중요도가 높을 수록 해당 노드가 중요한 분류 기준이라는 것을 의미한다.
- 특성 중요도가 낮다는 것은 유용하지 않은 특성이다. - 결정에 많은 영향을 주지 않는다?
<aside>
💡 3. 불순도는 양성데이터와 음성데이터의 개수차이가 얼마나 나는지를 수치화 한 것으로 분류하기 좋은 것 보다는 분류가 잘 된 것이라 하는게 맞는 것 같다. 또한 엔트로피 불순도 또한 낮을 수록 분류가 잘 된 것이다.
5. 단지 그 특성을 선택하지 않았을 뿐, 다른 특성이 동일한 정보를 가져서 일 수도 있다.
</aside>
이론 문제 2 답: 3, 4
다음 내용 중 틀린 설명을 모두 고르시오.
- 집단의 데이터 개수만큼을 복원 추출하는 bootstrap은 모집단과 표본 집단을 추정 가능하게 한다.
- Histogram-based Gradient Boosting은 정형 데이터를 높은 성능으로 다룬다.
- 트리의 랜덤성이 클수록 방대한 양의 트리를 훈련해야 하기 때문에 필연적으로 ****계산 속도가 느려지는 문제가 발생한다.
- random forest에서 각각의 트리는 오버피팅될 수 있으나 각 트리의 연관성이 높을수록 random forest의 성능이 높아진다.
- 회귀와 분류 모두에 이용 가능한 gradient boosting은 손실 함수, 약한 학습자들을 포함한다.
<aside>
💡 3. 랜덤성이 클수록 계산속도가 빨라진다. 대표적인 예시로 트리를 랜덤하게 분할하는 엑스트라 트리가 렌덤포레스트 보다 빠르다.
4. Random Forest는 과대적합이 있는 트리가 있으면, 다른 쪽으로 과대적합이 되게 하여, 과대적합을 막는 알고리즘이므로, 트리의 연관성이 없을 수록 성능이 높아진다고 할 수 있다.
</aside>