성현에게 : 배치를 정하는 기준은 무엇인가요?
진우에게 : 행렬의 결합법칙이 성립함을 증명하시오 [4점]
행렬의 곱을 선형 변환의 연속 관점에서 보면 성립
cf) 결합법칙 = (AB)C = A(BC) , 일반적으로 교환법칙은 성립하지 않음
현수에게 : RMSProp 최적화 함수에서 learning_rate의 default 값은?

진우에게 : 브로드 캐스팅은 어떤경우에 사용하는가?
성현에게 : 모멘텀이란 무엇인가?


현우에게 : ReLu의 특징은?




현수에게 : Gradient Descent의 문제에는 무엇이 있을까요?
모델을 학습할 때 결과가 피드백이 되어서 모델에 영향을 주어야하는데 Vanishing Gradient로 인해 모든 layer에 영향을 미치기 어려워진다.
cf) 85p : 지역해, 수렴속도
현우에게 : 손실을 감소시키려면 그래디언트를 정방향으로 이동해야 하나요? 역방향으로 이동해야 하나요? 80p
성현에게 : 미니배치란 무엇인가요? 또한 true SGD와 배치 SGD 둘의 차이는 무엇인가요? 84p
다르게 말해서 : 미니배치란 무엇인가요? 또한 SGD와 배치 SGD 둘의 차이는 무엇인가요?

성현: 수치미분(GD)이 vs 오차 역전파 오래 걸리는 것은 반복 횟수 때문인가?