문제 1

정답

3, 4

풀이

  1. 결정 트리에서 정보 이득이 클수록 분류가 잘 된다. 정보 이득은 노드를 순수하게 나눌 수록 정보 이득이 커진다. 즉, 불순도의 값이 작을 수록 분류가 잘 된다. 따라서 엔트로피 불순도가 낮을수록 분류하기가 좋기 때문에 3번은 틀렸다.
  2. 특성 중요도와 노드는 서로 직접적인 연관이 없다. 특성 중요도의 값이 높을 수록 해당 특성이 분류에 있어 중요한 요소인 것으로 볼 수는 있지만, 특성 값이 높다고 노드가 중요한 분류 기준이라고 할 수는 없다

문제 2

정답

1, 3, 4

풀이

  1. 복원추출로 얻은 샘플은 모집단 추론 시 편향(bias)를 발생할 수도 있다. 따라서 bootstrap은 모집단을 추정 가능하게 한다고 보기 어렵다.
  2. 앙상블 학습은 정형 데이터에서 높은 성능을 다룬다. Histogram-based Gradient Boosting은 앙상블 학습의 하나이기 때문에 정형 데이터에서 높은 성능을 다룬다. 따라서 맞는 선택지이다.
  3. 엑스트라 트리는 랜덤 포레스트보다 랜덤성이 크기 때문에 더 많은 결정 트리를 훈련헤야 한다. 하지만 랜덤하게 노드를 분할하기 때문에 계산 속도가 빠르다. 따라서 랜덤성이 클수록 계산 속도가 느리다고 할 수 없다.
  4. random forest는 오버피팅을 피하기 위해 사용하는 모델이다. 학습한 모델에서 각 트리가 오버피팅이 될순 있다. 하지만 트리의 연관성이 낮아야 오버피팅을 피할 수 있기 때문에 트리의 연관성이 낮을수록 random forest의 성능이 높아진다.

약한 학습자는 앙상블 학습에서 사용하는 여로 모델 중 각 모델을 약한 학습자라고 하는 것 같다.

문제 3