强化学习-策略梯度

最新推荐文章于 2025-05-20 09:01:31 发布

下一个拐角%

最新推荐文章于 2025-05-20 09:01:31 发布

阅读量247

点赞数

分类专栏：强化学习文章标签：开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_44430026/article/details/125922495

版权

强化学习专栏收录该内容

12 篇文章

订阅专栏

本文介绍了强化学习中的策略梯度方法，通过神经网络表示策略π，并利用环境交互数据来优化网络参数θ以最大化期望奖励。讨论了轨迹概率、回合奖励目标以及梯度上升策略。此外，提到了两种实用技巧：基线方法用于降低样本方差，并通过动作的未来奖励权重区分动作价值；还介绍了使用交叉熵损失函数进行网络优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基本概念

1. 策略π ，用一个网络表示，θ 是网络的参数。网络输入 observation 的状态，输出动作的概率分布。

2.一条轨迹，是由环境输出 s状态和 actor 输出的动作 a 组成，可以存在状态转移概率【取决于环境，不可控】和策略（本身是概率）【actor 控制的，取决于策略的参数 θ 】因此可以计算出一条轨迹发生的概率

3. 一个回合的奖励 R，目的：调整内部参数 θ 使得 R 越大越好。

R 是一个随机变量，所以无法直接计算，能够计算的是 R 的的期望。给定一组参数 θ，得到的期望为

最大化的手段——》梯度上升【更新参数 θ】。所以先求期望奖励的梯度：

因为期望无法计算出来，所以采用采样的方式，让agent和环境互动记录下来数据。数据每次只用一次，更新完一次 θ 。就在重新采样。

实现tips

1.baseline

解决问题：奖励总为正的情况。削弱采样带来的样本不充分导致的有些动作概率下降【MC 方差大】。

这里 b 是奖励值求期望，Sutton 的书中用的是状态价值函数 v'(St,w) ,会更新参数w。

2.给每个动作合适的分数

解决的问题：之前的权重是一场游戏（回合）的总奖励，相当于这场游戏的每个动作被赋予了相同的权重，但是一场游戏里面肯定有好动作和坏动作，只是累计加和的回合奖励多还是少。

权重改为从某一个动作执行到以后的奖励。来区别对待不同的动作。同时，加上 折扣因子γ。【一般设为 0.9 或 0.99】

其中，上式中的

用交叉熵得到。

交叉熵：来表示两个概率分布之间的差距。作为损失函数 loss ，传给神经网络的优化器去优化。自动求偏导做神经网络参数优化。

代码实践

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。