16、策略梯度算法的基础实现与应用

策略梯度算法的基础实现与应用

1. 算法选择与实验结果

在当前的研究中,选择使用平均值作为一种方法,并考虑在后续使用更复杂的近似函数。在预测状态 - 值函数时,需要在预测准确性和函数的鲁棒性之间进行权衡,即要尽可能准确地预测状态 - 值函数,同时确保函数近似在遇到未见过的状态时不会产生荒谬的结果。

通过在相同设置下进行超过50次不同的实验运行,得到了具有统计学意义的结果。从实验结果(图5 - 3)可以看出,奖励最初与标准的REINFORCE算法的轨迹相似,但后期出现了分歧。这表明基线算法稍微更稳定,在REINFORCE算法中,较大的梯度更新可能会意外地使智能体的性能变差,而基线智能体能够持续稳定地提升性能。

2. 梯度方差减少

基线方法可以降低梯度的方差。在REINFORCE或其他基本的蒙特卡罗方法中,目标是改变策略以最大化奖励。策略梯度方法通过将策略向特定方向推动一定量来实现这一目标,方向由策略的导数计算得出,而对于REINFORCE算法,梯度的大小是当前的期望回报。

然而,后续样本的期望回报可能会有很大差异。例如,在CartPole环境中,一个原本有效的策略可能由于偶然因素,使得杆子在回合早期就倒下,从而导致期望价值的巨大差异和大的梯度更新。在Pong环境中,早期回合的奖励接近 - 21,所有动作都会导致负奖励,梯度更新会抑制所有动作。更好的解决方案是考虑奖励的变化,智能体应该使用动作相对于平均值的相对差异。

通过捕获REINFORCE和带基线的REINFORCE算法单次运行的梯度更新,可以看到(图5 - 4),经过一段时间的学习后,基线算法的梯度标准差显著下降,而REINFORCE算法即使在获得不错的奖励后,仍

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值