基于策略梯度的强化学习方法及算法理论基础

最新推荐文章于 2025-03-19 14:44:01 发布

原创

最新推荐文章于 2025-03-19 14:44:01 发布 · 1.7k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#策略梯度 #算法理论 #强化学习

往期博客：

基于值函数逼近的强化学习方法
 Policy gradient 算法思想

基于策略：

Policy gradient 是 RL 中另外一个大家族, 他不像 Value-based 方法 (Q learning, Sarsa), 但他也要接受环境信息 (observation), 不同的是他要输出不是 action 的 value, 而是具体的那一个 action, 这样 policy gradient 就跳过了 value 这个阶段. 而且 Policy gradient 最大的一个优势是: 输出的这个 action 可以是一个连续的值, 之前我们说到的 value-based 方法输出的都是不连续的值, 然后再选择值最大的 action. 而 policy gradient 可以在一个连续分布上选取 action.

基于值与基于策略：

在值函数的方法中，我们迭代计算的是值函数，然后根据值函数对策略进行改进；而在策略搜索方法中，我们直接对策略进行迭代计算，也就是迭代更新参数值，直到累积回报的期望最大，此时的参数所对应的策略为最优策略。

比较一下值函数方法和直接策略搜索方法的优缺点：

直接策略搜索方法是对策略进行参数化表示，与值函数方中对值函数进行参数化表示相比，策略参数化更简单，有更好的收敛性。
利用值函数方法求解最优策略时，策略改进需要求解。
$a r g$ $\max _{a} Q_{\theta}(s, a)$ ，当要解决的问题动作空间很大或者动作为连续集时，该式无法有效求解。
直接策略搜索方法经常采用的随机策略，能够学习随机策略。可以将探索直接集成到策略之中。

与值函数方法相比，策略搜索方法也普遍存在缺点，比如：

策略搜索的方法容易收敛到局部最小值。
评估单个策略时并不充分，方差较大。

推导策略梯度：

用 $\tau$ 来表示一组状态-行为序列， $s_{0}, u_{0}, \cdots, s_{H}, u_{H_{i}}$ ， $\mathcal{R}(\tau)=\sum_{t=0}^{H} R\left(s_{t}, u_{t}\right)$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。