<aside> 💡 1번 10 점 2번 5 점 3번 9 점 4번 10 점 5번 7 점 ⇒ total : 41점
</aside>
답: 2
→ 기울기 폭주는 일어나지 않는다
<aside> 💡 정답은 1, 4입니다. 링크 했던 논문의 ‘2.2 Stochastic gradient descent’에 “Batch gradient descent performs redundant computations for large datasets, as it recomputes gradients for similar examples before each parameter update. SGD does away with this redundancy”라고 적혀 있습니다. 즉, ‘배치 경사 하강법’은 큰 데이터에 대해 ‘확률적 경사 하강법’보다 불필요한 연산을 많이 함으로 3번은 오답입니다.
</aside>
그리고 해당 선택지를 고른 이유와 고르지 않은 이유 등을 같이 명시해주시면 더 좋을 것 같아요.
답: 3,4
<aside> 💡 sigmoid 함수를 거친 후 양성클래스(채소)에서는 확률이 맞지만, 음성클래스(과일)에서는 “1-expit(z)”를 해주셔야 음성클래스일 확률이 나옵니다 z를 구할 때 numpy의 transpose와 dot연산을 통해 구할 수도 있으니 공부해보시면 좋을 것 같습니다!
</aside>
def class_name(pro):
if pro > 0.5:
return '채소'
return '과일'
tomatoma = tomato[['식품명']].values.reshape(-1, )
from scipy.special import expit
for case in zip(tomatoma , LogiReg.coef_ * scaled_tomato):
z = sum(case[1])+LogiReg.intercept_
#pro = sigmoid(z)
pro = expit(z)
print("%s = %s : %.06f"%(case[0], class_name(pro), pro))

<aside> 💡 2번 : mae = mean absolute error 평균 절대 오차입니다. 모든 절대 오차의 평균이기 때문에 제곱을 하지않고 측정값과 실제값 사이의 절대 오차를 구한 후 평균을 내기 때문에 제곱을 하지 않아 오답입니다.
</aside>
<aside> 💡 4번 : 반드시 데이터 라벨을 하지 않기 때문에 오답입니다.
</aside>
답: 2,4
2: MAE의 식을 제곱하게 되어도 한 개의 최저점을 갖는 볼록함수가 나온다
4: 반드시는 아니다