later….
WGAN 알고리즘
주로 사용하는 optimizer인 Adam은 RMSProp과 momentum을 합친 것이다.
momentum 기반의 optimizer로 critic을 학습했을 때, 학습이 불안정하게 된다고 한다!
→ critic의 loss가 nonstationary하기 때문
momentum 기반의 optimizer를 사용했을 때?
loss 확산 + sample 터짐 + Adam step과 기울기 사이의 cosine이 negative 값으로 바뀜
특히 cosine이 음수 값이 되면서 학습이 불안정하게 진행됨.
따라서 loss가 nonstationary하거나, learning rate가 매우 큰 경우에 좋은 성능을 보이는 RMSProp 사용!
Lipschitz constraint를 위해 Weight clipping을 사용하였지만…