强化学习进展（持续更新）

首页 > 强化学习 > 正文

强化学习进展（持续更新）

标签：强化学习, 进展, 迁移学习

2019-05-11

Beyond DQN/A3C: A Survey in Advanced Reinforcement Learning(2018)
Modern Deep Reinforcement Learning Algorithms(2019)
Evolution Strategies as a Scalable Alternative to Reinforcement Learning
模拟器相关
代码库
迁移学习+强化学习

梳理rl的一些新进展

Beyond DQN/A3C: A Survey in Advanced Reinforcement Learning(2018)

参考深度 | 超越DQN和A3C：深度强化学习领域近期新进展概览

原blog：https://towardsdatascience.com/advanced-reinforcement-learning-6d769f529eb3

DQN

\[ Q\left(s_{t}, a_{t} ; \theta\right) \leftarrow Q\left(s_{t}, a_{t} ; \theta\right)+\alpha[\underbrace{\underbrace{(r_{t}+\max _{a} \hat{Q}\left(s_{t+1}, a ; \theta^{\prime}\right))}_{\text { target }}-Q\left(s_{t}, a_{t} ; \theta\right) )}_{\text {TD-error}}] \]

\[ d \theta_{v} \leftarrow d \theta_{v}+\partial{\underbrace{\left(R-V\left(s_{i} ; \theta_{v}\right)\right)}_{\text{advantage}}}^{2} / \partial \theta_{v} \]