AI/RL(5)
-
Reward is enough
paper: https://www.sciencedirect.com/science/article/pii/S0004370221000862?fbclid=IwAR00HAZ1VgULd647jwVdXSCG58RlcWsC9GpPUimy0JvEgGNLYeKNI-_UWWc 자세히 보진 않았지만 인간의 여러 능력들을 보상 체계를 통해 나타낼 수 있다는걸 보여주는 논문 같습니다.
2021.11.03 -
RL Lecture - David Silver
링크 강의 홈페이지(원 강의 영상, 강의 ppt): https://www.davidsilver.uk/teaching/ YouTube 한글 강의 by 팡요랩: https://www.youtube.com/playlist?list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU 이웅원님 정리: https://dnddnjs.gitbooks.io/rl/content/ 7장 Baseline 증명에 대한 설명 여기서 왜 이런 증명이 나왔나 제대로 이해 못하신 분들이 계실 것 같은데 제가 그랬... \[ \nabla_\theta J(\theta) = \mathbb{E}{\pi\theta}[\nabla_\theta log\pi_\theta(s,a)A^{\pi_\theta}(s,a)] \] \[ = \mat..
2020.07.29 -
(비전공자를 위한) 강화학습이란?
기계학습(Machine Learning)이란? 컴퓨터가 데이터를 보고 그 데이터의 패턴을 스스로 알아내는 것을 기계학습이라고 합니다. 즉, 명확한 규칙이 없이 예시(데이터)들을 보고 예시들의 공통점을 파악해 규칙을 알아내는 것입니다. 강화학습(Reinforcement Learning)이란? 기계학습의 한 분야인 강화학습은 간단히 말하자면 개를 훈련시키는 방법과 유사합니다. 개에게 '앉아'를 훈련 시킬 때 여러 방법이 있겠지만 간단하게 일단 '앉아'라고 명령 하고 강아지가 '우연히' 앉는 자세를 하면 먹이를 줍니다. 이걸 반복하다 보면 어떻게 해야되는지 알게 되겠죠. 강화학습은 인공지능 에이전트(행동 주체)가 개처럼 처음에는 랜덤하게 action을 하다가 '우연히' 상황에 맞는 action을 하면 '보상'..
2020.07.29 -
DeepMind's research - About walk
DeepMind's video [1] Emergence of Locomotion Behaviours in Rich Environments [2] DeepMind Learns Parkour
2020.07.29 -
DQN
Related paper: Playing Atari with Deep Reinforcement Learning(NIPS 2013 Workshop) Human-Level Control Through Deep Reinforcement Learning RL에 Function Approximator로 뉴럴넷을 쓰는 것은 뉴럴넷은 iid(Independent Identical Distribution)을 가정하는데 MDP 문제들은 State간의 correlation이 높고(게임을 생각해보면 현재 상태와 다음 상태가 완전히 독립적으로 발생하지 않음, Markov Property에 의해 현재 state는 이전 state에 의존적임) target distribution이 매 업데이트마다 변경되는(agent가 취하는 ac..
2020.07.29