【从RL到DRL】深度强化学习基础(五)离散控制与连续控制——确定策略梯度方法(DPG)、使用随机策略进行连续控制

本文详细介绍了确定策略梯度(DPG)算法在连续控制问题中的应用,包括其网络结构、改进方法如使用TargetNetwork以减少Bootstrapping问题。讨论了随机策略与确定策略在网络输出和控制方式上的区别,并展示了如何构建和训练策略网络来执行连续动作。同时,提到了Reinforce和A-C算法在策略梯度计算中的角色。

确定策略梯度(Deterministic Policy Gradient,DPG)

考虑如下的连续控制问题:在这里插入图片描述
动作空间A是一个二维空间,且动作A是一个二维连续的向量。DPG其实也是一种A2C算法,网络结构如下:在这里插入图片描述
当状态s与价值网络Value Network确定后,唯一可以影响输出价值q(s,a;w)的参数就是策略网络中的θ,因此可以对输出的状态价值函数q(s,a;w)对θ求梯度
在这里插入图片描述
最后对θ使用梯度上升 即可。在实际应用中,直接使用上述的网络结构往往会有缺陷,下面介绍几种改进。

改进:使用Target Network

即在前篇介绍Bootstrapping问题时,使用另一个神经网络来计算价值网络的方法。
使用Target Network对t+1时刻进行预测,网络结构一致,但参数不同:在这里插入图片描述
改进后的计算流程:

  • 策略网络做出一个决定:a = π(s;θ)
  • 使用DPG更新策略网络(梯度上升)在这里插入图片描述
  • 计算价值网络qt=q(s,a;w)
  • 使用Target
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值