Policy Gradient 算法

最新推荐文章于 2025-05-06 16:09:19 发布

原创最新推荐文章于 2025-05-06 16:09:19 发布 · 918 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#REINFOECE #Policy Gradient #Reinforcement Learning

强化学习专栏收录该内容

28 篇文章

订阅专栏

本文深入解析了Policy Gradient算法，一种常见的强化学习方法。通过详细解释Vanilla Policy Gradient算法的原理，包括Gti作为TD估计、bootstrap或从t开始的reward，以及如何实现单调改进。阐述了如何计算Rti^和A^ti，旨在降低variance并优化梯度估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

常见的policy gradient算法，写出来挺简单的，但是有一个复杂的推导过程，这里就略去了。

在这里插入图片描述

Vanilla Policy Gradient Algorithm

在这里插入图片描述
$G_t^i$ 可以是TD estimate、bootsrap，也可以是简单的从t开始的reward。

图示即为实现monototic imporvement

$Gti=∑t′=tTrtiG_t^i=\sum_{t'=t}^\Tau r_t^i$
$A^ti=Gti−b(st)\hat{A}_t^i=G_t^i-b(s_t)$
上面两行是为了更好地得到梯度的估计，在使用少量数据的情况下，并减少variance。

两部分都很重要，实现的是不一样的东西。

在这里插入图片描述
$Rti^\hat{R_t^i}$ 的计算方式如下：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。