DQN

DQN

2020. 7. 29. 02:19ㆍAI/RL

Correlation 문제

state간의 correlation이 높다는 문제를

여러 transition들을 저장해 놓고 random하게 minibatch로 뽑아 학습하는걸로

랜덤성을 줘 해결했습니다.

loss 함수(손실함수)에 Prediction 값과 Target 값이 들어가는데 두 값이 같은 파라미터를 쓰기 때문에 가중치를 업데이트 시킬 때마다 Label이 변경되 loss가 잘 수렴하지 않는 문제가 생기게 됩니다.

이 문제를 해결하기 위해 Prediction과 Label이 서로 다른 파라미터를 쓰도록 네트워크를 분리시켜주고 나중에 동기화 시키는 방법을 씁니다.

즉, Main network와 Target network를 분리하는 것 입니다.

이 방법을 도입하므로서 수렴 안정성을 높였습니다.

Reward is enough (0)	2021.11.03
RL Lecture - David Silver (0)	2020.07.29
(비전공자를 위한) 강화학습이란? (0)	2020.07.29
DeepMind's research - About walk (0)	2020.07.29