Policy Gradient 算法

本文深入解析了Policy Gradient算法,一种常见的强化学习方法。通过详细解释Vanilla Policy Gradient算法的原理,包括Gti作为TD估计、bootstrap或从t开始的reward,以及如何实现单调改进。阐述了如何计算Rti^和A^ti,旨在降低variance并优化梯度估计。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

常见的policy gradient算法,写出来挺简单的,但是有一个复杂的推导过程,这里就略去了。

在这里插入图片描述

Vanilla Policy Gradient Algorithm

在这里插入图片描述
GtiG_t^iGti可以是TD estimate、bootsrap,也可以是简单的从t开始的reward。
在这里插入图片描述
图示即为实现monototic imporvement

Gti=∑t′=tTrtiG_t^i=\sum_{t'=t}^\Tau r_t^iGti=t=tTrti
A^ti=Gti−b(st)\hat{A}_t^i=G_t^i-b(s_t)A^ti=Gtib(st)
上面两行是为了更好地得到梯度的估计,在使用少量数据的情况下,并减少variance。

两部分都很重要,实现的是不一样的东西。

在这里插入图片描述
Rti^\hat{R_t^i}Rti^的计算方式如下:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值