DQN

2020. 7. 29. 02:19AI/RL

 

Related paper:

Playing Atari with Deep Reinforcement Learning(NIPS 2013 Workshop)

Human-Level Control Through Deep Reinforcement Learning

 

 

RL에 Function Approximator로 뉴럴넷을 쓰는 것은

뉴럴넷은 iid(Independent Identical Distribution)을 가정하는데 MDP 문제들은 State간의 correlation이 높고(게임을 생각해보면 현재 상태와 다음 상태가 완전히 독립적으로 발생하지 않음, Markov Property에 의해 현재 state는 이전 state에 의존적임)

target distribution이 매 업데이트마다 변경되는(agent가 취하는 action에 따라 결과가 달라짐) 등

여러 문제로 수렴한다는 것이 보장되지 않아 사용이 힘들었다.

 

하지만 DQN은

화면의 픽셀값을 CNN의 input으로 넣어서 Q Learning으로 학습시킨 최초의 모델로

위의 문제들을 해결해

동일한 architecture, hyperparameter 값으로 7개의 Atari 2600 게임을 학습, 3개의 게임에서는 인간을 뛰어넘었다.

 

 

Correlation 문제

samples with correlation

state간의 correlation이 높다는 문제를

여러 transition들을 저장해 놓고 random하게 minibatch로 뽑아 학습하는걸로

랜덤성을 줘 해결했습니다.

 

Non stationary targets 문제

dqn loss function

loss 함수(손실함수)에 Prediction 값과 Target 값이 들어가는데 두 값이 같은 파라미터를 쓰기 때문에 가중치를 업데이트 시킬 때마다 Label이 변경되 loss가 잘 수렴하지 않는 문제가 생기게 됩니다.

이 문제를 해결하기 위해 Prediction과 Label이 서로 다른 파라미터를 쓰도록 네트워크를 분리시켜주고 나중에 동기화 시키는 방법을 씁니다.

즉, Main network와 Target network를 분리하는 것 입니다.

이 방법을 도입하므로서 수렴 안정성을 높였습니다.

'AI > RL' 카테고리의 다른 글

Reward is enough  (0) 2021.11.03
RL Lecture - David Silver  (0) 2020.07.29
(비전공자를 위한) 강화학습이란?  (0) 2020.07.29
DeepMind's research - About walk  (0) 2020.07.29