论文链接:https://arxiv.org/abs/1509.02971
引用:Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J]. arXiv preprint arXiv:1509.02971, 2015.
概述
Deep Deterministic Policy Gradient (DDPG) 是DPG算法加上深度学习的版本,是一个 model-free、off-policy 的 actor-critic 系算法,使用深度神经网络作为函数近似方程,主要的特点是支持高维度的连续的动作空间,这是在DQN算法上的一个主要突破,其实也就是因为是 actor-critic 系的算法,所以支持连续动作空间。
算法

主要创新点
- 也使用了DQN算法中的 replay buffer / experience replay 的技术
- 创新地使用了Soft Target Update的技术,与DQN中设立了target network,然后阶段性地将policy network的参数直接拷贝给target network的放法不同的是,这里虽然也是为actor和critic都分别设立了一个target版本,但是并不是直接将进行更新的policy版的参数全部直接拷贝给它们,而是使用了一个系数 τ \tau τ来更新参数: θ ′ ← τ θ + ( 1 − τ ) θ ′ \theta' \leftarrow \tau \theta + (1-\tau)\theta' θ

本文介绍了Deep Deterministic Policy Gradient (DDPG) 算法,它是DPG算法结合深度学习的版本,支持高维度连续动作空间。其主要创新点包括使用replay buffer技术、Soft Target Update技术、给动作值加噪音平衡探索与利用,还采用batch normalization技术,在多实验中验证了稳定性和普适性,应用于Atari游戏时减少了训练轮次。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



