DeepMind(2)
-
DeepMind's research - About walk
DeepMind's video [1] Emergence of Locomotion Behaviours in Rich Environments [2] DeepMind Learns Parkour
2020.07.29 -
DQN
Related paper: Playing Atari with Deep Reinforcement Learning(NIPS 2013 Workshop) Human-Level Control Through Deep Reinforcement Learning RL에 Function Approximator로 뉴럴넷을 쓰는 것은 뉴럴넷은 iid(Independent Identical Distribution)을 가정하는데 MDP 문제들은 State간의 correlation이 높고(게임을 생각해보면 현재 상태와 다음 상태가 완전히 독립적으로 발생하지 않음, Markov Property에 의해 현재 state는 이전 state에 의존적임) target distribution이 매 업데이트마다 변경되는(agent가 취하는 ac..
2020.07.29