<aside> 💡 1번 10 점 2번 10 점 3번 10 점 4번 10 점 5번 10+1 점 ⇒ total : 51점
</aside>
3 : 엔트로피 불순도도 클수록 분류하기 좋지 않음
5 : 특성 중요도가 낮다고 해서 그 특성이 유용하지 않다는 것은 아님 ⇒ 트리가 그 특성을 선택하지 않았거나, 다른 특성이 동일한 정보를 지니고 있기 때문
<aside> 💡 맞습니다! 불순도는 모두 높을 수록 분류가 잘 되지 않았다는 것을 의미하고, 낮을 수록 분류가 잘 되었다고 볼 수 있습니다. 그래서 불순도는 낮을수록 좋다고 볼 수 있습니다. 특성 중요도와 유용성은 관계가 없습니다.
</aside>
<aside> 💡 맞습니다! extra trees의 경우, 랜덤하게 노드를 분할하기 때문에 계산 속도가 빠른 것이 장점이며(3번) 각 트리의 연관성이 아닌 독립성이 높아질수록 random forest의 성능이 높아집니다.
</aside>
3 : 트리의 랜덤성이 클수록, 계산 속도가 빨라짐
4 : 각 트리의 정확도, 독립성이 높을수록 random forest의 성능이 높아짐
<aside> 💡 Gridsearchcv와 C값 비교 모두 잘 하셨습니다!
</aside>
#GridSearchCV
from sklearn.model_selection import GridSearchCV
params = {'C' : [i for i in range(1, 30)]}
gs = GridSearchCV(LogisticRegression(max_iter=1000), params, n_jobs=-1)
gs.fit(train_scaled, train_target)
dt = gs.best_estimator_
print('GridSearchCV 적용 후')
print('train score :',dt.score(train_scaled,train_target))
print('test score :',dt.score(test_scaled,test_target))
print('C =',gs.best_params_['C'])
*** C의 범위가 커질수록 ⇒ C의 값이 커지고, 훈련 세트에 과대적합됨
<aside> 💡 2번 : 모델의 여러 하이퍼파라미터는 다른 하이퍼파라미터와 함께 성능에 영향을 미칩니다.
</aside>