시행착오를 통한 학습 (보상을 최대화하는 방법 모색)
현재 상태(state)를 관찰하여 선택할 수 있는 행동(action)들 중에서 가장 최대의 보상(reward)을 얻는 행동이 무엇인지 학습
변화하는 환경에 대한 행동의 결과로 받는 보상으로 통해 학습
시행착오를 겪으며 학습