19、深度强化学习中的确定性策略梯度及改进方法

深度强化学习中的确定性策略梯度及改进方法

1. 确定性策略梯度算法步骤详解

1.1 输入两个评判网络

在步骤 (1) 中,需要传入两个评判网络,其参数分别用 $\theta_1$ 和 $\theta_2$ 表示。大多数实现要求传入两个独立的深度学习网络,且通常它们具有相同的架构。不过,也可以尝试不同的架构或多头架构。

1.2 动作噪声处理

原始算法会对动作噪声进行裁剪,以使结果接近原始动作,目的是防止智能体选择无效动作。多数实现会将该值设置为与环境的动作空间相匹配。但由于可以控制噪声函数的设计,裁剪可能并非必要。可以选择一个与动作空间和平滑目标相匹配的噪声函数,然后复用深度确定性策略梯度(DDPG)中的标准确定性动作函数(步骤 (6))。

1.3 预测值的选择与评判网络更新

在步骤 (11) 中,预测值是目标网络中两个评判网络的最小值。也就是说,选择最低的动作 - 值估计,这更可能是正确的,因为存在高估偏差。步骤 (12) 使用这个折扣奖励的预测来更新两个评判网络,有助于抑制进行高估的网络。

1.4 策略更新延迟

步骤 (13) 之后的内循环每 $d$ 次迭代发生一次,这会延迟策略更新。步骤 (14) 很有趣,它使用第一个评判网络来更新策略,而不是使用具有最小值的评判网络。推测原因是,由于高估的网络在步骤 (12) 中受到约束,从长远来看,选择网络一还是网络二并没有太大区别,两个网络都有可能高估。不过,更明智地选择使用哪个网络可能会带来轻微的性能提升。

其他步骤与 DDPG 相同。同时,要始终参考原始论文,并添加足够的监控代码来验证实现。展开循环

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值