在强化学习(十五) A3C中,我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题,今天我们不使用多线程,而是使用和DDQN类似的方法:即经验回放和双网络的方法来改进Actor-Critic难收敛的问题,这个算法就是是深度确定性策略梯度(Deep Deterministic Policy Gradient,以下简称DDPG)。
本篇主要参考了DDPG的论文和ICML 2016的deep RL tutorial。
1. 从随机策略到确定性策略
从DDPG这个名字看,它是由D(Deep)+D(Deterministic )+ PG(Policy Gradient)组成。PG(Policy Gradient)我们在强化学习(十三) 策略梯度(Policy
DDPG(深度确定性策略梯度)是强化学习中解决连续动作空间问题的算法,通过结合确定性策略和经验回放技术改进了Actor-Critic方法的收敛性。本文介绍了从随机策略到确定性策略的转变,DPG到DDPG的演进,DDPG的原理、算法流程,并提供了代码实例,是理解DDPG算法的详细教程。
订阅专栏 解锁全文
3344

被折叠的 条评论
为什么被折叠?



