[DDPG] Continuous Control with Deep Reinforcement Learning

最新推荐文章于 2024-08-28 08:42:23 发布

原创

最新推荐文章于 2024-08-28 08:42:23 发布 · 4.1k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #深度学习 #人工智能 #强化学习

本文介绍了Deep Deterministic Policy Gradient (DDPG) 算法，它是DPG算法结合深度学习的版本，支持高维度连续动作空间。其主要创新点包括使用replay buffer技术、Soft Target Update技术、给动作值加噪音平衡探索与利用，还采用batch normalization技术，在多实验中验证了稳定性和普适性，应用于Atari游戏时减少了训练轮次。

论文链接：https://arxiv.org/abs/1509.02971
引用：Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J]. arXiv preprint arXiv:1509.02971, 2015.

概述

Deep Deterministic Policy Gradient (DDPG) 是DPG算法加上深度学习的版本，是一个 model-free、off-policy 的 actor-critic 系算法，使用深度神经网络作为函数近似方程，主要的特点是支持高维度的连续的动作空间，这是在DQN算法上的一个主要突破，其实也就是因为是 actor-critic 系的算法，所以支持连续动作空间。

算法

DDPG 算法

主要创新点

也使用了DQN算法中的 replay buffer / experience replay 的技术
创新地使用了Soft Target Update的技术，与DQN中设立了target network，然后阶段性地将policy network的参数直接拷贝给target network的放法不同的是，这里虽然也是为actor和critic都分别设立了一个target版本，但是并不是直接将进行更新的policy版的参数全部直接拷贝给它们，而是使用了一个系数 $\tau$ 来更新参数： $\theta' \leftarrow \tau \theta + (1-\tau)\theta'$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。