논문 구현 (DQN)

$$ Q(s, a) = R + \gamma max Q(s',a') $$

( 감마 < 1 인수로 점차 미래의 가치보다 현재 가치를 조금 더 우선 시 한다는 것을 의미한다)

식에 기반해서 알고리즘을 학습하는 형태이다.

하지만, 이것을 단순한 재귀로 프로그램을 짜게 된다면 ****Q가 무한히 늘어나기 때문에 실제 Q값을 구하기가 어렵다.

하지만, Q함수를 딥러닝을 이용하여 구할 수 있다면??

→ 구현이 가능하다

따라서 Q함수를 찾아 나가면서 강화 학습을 하면 학습이 가능하다

업데이트

Untitled

게임을 직접 하는 것처럼 구현하기 위해서 pygame 라이브러리를 이용하여 구현 해 보았습니다.

길게 미래를 봤을 때 아무것도 먹지 않는 것이, 점수가 가장 높게 나온다는 것을 반영해버린 것 같습니다 😂😂

Train 할 때 보다 Predict 할 때 시간이 더 많이 걸림

Train할 때도 Predict된 값을 이용하기 때문에, Train시간이 너무 오래 걸림