torch.optim.SGD()의 인자 lr은 1을 넘어설 수 있다. (O/X)
ㅇㅇ
선형회귀분석을 할 때 zero_grad()를 처음에만 호출하는 것이 아니라 매 epoch마다 호출하는 이유는 무엇인가?
새로운 가중치로 업데이트하기 위해서(이전 실행에 대한 gradient가 누적되기 때문)
PYTORCH의 nn.Module를 상속받아 사용자 정의 모델을 생성할 때, 반드시 정의해야 하는 메소드는 무엇인가? (다중 선택 가능)
a, b
Learning rate와 Gradient의 곱만큼 감소시키는 이유를 설명하시오.
Gradient는 비용에 대한 가중치 변화량을 의미하고
Learning rate는 가중치를 수정하기위한 가중치 변화량의 크기를 의미를 함
Weight를 Gradient의 반대 방향으로 이동시키기 위해서 감소시키는 것임
이동할 때 그 거리를 결정하는 것이 Learning rate임
변화량의 크기에 대해서는 Gradient임
Hypothesis function에 대해 옳지 않은 것을 고르시오
b, 인공신경망은 Hypothesis function을 여러 층으로 구성한 것
c, 다차원 가능