이론문제 1 답: 3, 5
다음 중 결정 트리에 관한 질문 중 틀린 것을 모두 고르시오.
- 결정 트리 알고리즘은 부모와 자식 노드 사이의 불순도 차이가 최대화되도록 학습한다.
- 결정트리에 아무 파라미터도 주지 않은 채 학습하면 오버피팅된다**. - 과대적합 가능성이 높긴함**
- 이진 분류에서 지니 불순도의 최대 값은 0.5이고 클수록 분류하기 좋지 않고**, 엔트로피 불순도는 낮을수록 분류하기 좋지 않다.**
- 결정트리에서 특성 중요도는 분류를 순수하게 잘 한 기여도이고, 특성 중요도가 높을 수록 해당 노드가 중요한 분류 기준이라는 것을 의미한다.
- 특성 중요도가 낮다는 것은 유용하지 않은 특성이다. - 결정에 많은 영향을 주지 않는다?
<aside>
💡 2. 가지치기를 하지 않으면 과대적합이 발생할 가능성이 높지만, 항상 그런건가? 만약 데이터가 충분히 적다면?
3. 불순도는 양성데이터와 음성데이터의 개수차이가 얼마나 나는지를 수치화 한 것으로 분류하기 좋은 것 보다는 분류가 잘 된 것이라 하는게 맞는 것 같다. 또한 엔트로피 불순도 또한 낮을 수록 분류가 잘 된 것이다.
4. 특성중요도 : 불순도를 감소하는 데 기여한 정도, 즉 분류하는데 기여한 정도
5. 단지 그 특성을 선택하지 않았을 뿐, 다른 특성이 동일한 정보를 가져서 일 수도 있다.
</aside>
#2-(5) 지도학습 알고리즘 : 결정 트리
이론 문제 2 답: 4, (1)
다음 내용 중 틀린 설명을 모두 고르시오.
- 집단의 데이터 개수만큼을 복원 추출하는 bootstrap은 모집단과 표본 집단을 추정 가능하게 한다.
- Histogram-based Gradient Boosting은 정형 데이터를 높은 성능으로 다룬다.
- 트리의 랜덤성이 클수록 방대한 양의 트리를 훈련해야 하기 때문에 필연적으로 ****계산 속도가 느려지는 문제가 발생한다.
- random forest에서 각각의 트리는 오버피팅될 수 있으나 각 트리의 연관성이 높을수록 random forest의 성능이 높아진다.
- 회귀와 분류 모두에 이용 가능한 gradient boosting은 손실 함수, 약한 학습자들을 포함한다.