目录
确定策略梯度(Deterministic Policy Gradient,DPG)
考虑如下的连续控制问题:
动作空间A是一个二维空间,且动作A是一个二维连续的向量。DPG其实也是一种A2C算法,网络结构如下:
当状态s与价值网络Value Network确定后,唯一可以影响输出价值q(s,a;w)的参数就是策略网络中的θ,因此可以对输出的状态价值函数q(s,a;w)对θ求梯度。

最后对θ使用梯度上升 即可。在实际应用中,直接使用上述的网络结构往往会有缺陷,下面介绍几种改进。
改进:使用Target Network
即在前篇介绍Bootstrapping问题时,使用另一个神经网络来计算价值网络的方法。
使用Target Network对t+1时刻进行预测,网络结构一致,但参数不同:
改进后的计算流程:
- 策略网络做出一个决定:a = π(s;θ)
- 使用DPG更新策略网络(梯度上升)

- 计算价值网络qt=q(s,a;w)
- 使用Target

本文详细介绍了确定策略梯度(DPG)算法在连续控制问题中的应用,包括其网络结构、改进方法如使用TargetNetwork以减少Bootstrapping问题。讨论了随机策略与确定策略在网络输出和控制方式上的区别,并展示了如何构建和训练策略网络来执行连续动作。同时,提到了Reinforce和A-C算法在策略梯度计算中的角色。
最低0.47元/天 解锁文章
66

被折叠的 条评论
为什么被折叠?



