强化学习策略梯度梳理3-SOTA上(附PPO2代码)

本文梳理了强化学习中的策略梯度方法,包括PG、TRPO、ACKTR和PPO。重点介绍了PPO的优化目标和约束条件,以及PPO1和PPO2的实现区别,同时提供了PPO2的代码参考。实验结果显示,策略优化的参数调整对结果有很大影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

强化学习策略梯度梳理-SOTA

这个部分主要参考周博磊老师的第六节的顺序
主要参考课程 Intro to Reinforcement Learning,Bolei Zhou
相关文中代码
https://github.com/ThousandOfWind/RL-basic-alg.git

进阶方向1

PG

首先策略的优化目标是
J ( θ ) = E τ ∼ π θ [ R ( τ ) ] J(\theta)=\mathbb{E}_{\tau \sim \pi_{\theta}}[R(\tau)] J(θ)=Eτπθ[R(τ)]
策略梯度的计算方法
∇ θ J ( θ ) = E π θ [ G t ∇ θ log ⁡ π θ ( s , a ) ] ≈ 1 N ∑ i = 1 N G t i ∇ θ log ⁡ π θ ( s i , a i ) \begin{aligned} \nabla_{\theta} J(\theta) &=\mathbb{E}_{\pi_{\theta}}\left[G_{t} \nabla_{\theta} \log \pi_{\theta}(s, a)\right] \\ & \approx \frac{1}{N} \sum_{i=1}^{N} G_{t}^{i} \nabla_{\theta} \log \pi_{\theta}\left(s_{i}, a_{i}\right) \end{aligned} θJ(θ)=Eπθ[Gtθlogπθ(s,a)]N1i=1NGtiθlogπθ(si,ai)

通过引入baseline我们可以削减方差
A π ( s , a ) = Q π ( s , a ) − V π ( s ) A^{\pi}(s, a)=Q^{\pi}(s, a)-V^{\pi}(s) Aπ(s,a)=Qπ(s,a)Vπ(s)

这里我还有个不太明白的地方, 为什么baseline可以用state value替代,因为我们期待的baseline应该是与策略无关吧, 但是V多多少少还是和策略有关呀,也可能我理解错了

总结

好精辟,这我不得背下来!

∇ θ J ( θ ) = E π θ [ ∇ θ log ⁡ π θ ( s , a ) G t ] −  REINFORCE  = E π θ [ ∇ θ log ⁡ π θ ( s , a ) Q w ( s , a ) ] −  Q Actor-Critic  = E π θ [ ∇ θ log ⁡ π θ ( s , a ) A w ( s , a ) ] −  Advantage Actor-Critic  = E π θ [ ∇ θ log ⁡ π θ ( s , a ) δ ] −  TD Actor-Critic  \begin{aligned} \nabla_{\theta} J(\theta) &=\mathbb{E}_{\pi_{\theta}}\left[\nabla_{\theta} \log \pi_{\theta}(s, a) G_{t}\right]-\text { REINFORCE } \\ &=\mathbb{E}_{\pi_{\theta}}\left[\nabla_{\theta} \log \pi_{\theta}(s, a) Q^{\mathrm{w}}(s, a)\right]-\text { Q Actor-Critic } \\ &=\mathbb{E}_{\pi_{\theta}}\left[\nabla_{\theta} \log \pi_{\theta}(s, a) A^{\mathrm{w}}(s, a)\right]-\text { Advantage Actor-Critic } \\ &=\mathbb{E}_{\pi_{\theta}}\left[\nabla_{\theta} \log \pi_{\theta}(s, a) \delta\right]-\text { TD Actor-Critic } \end{aligned} θJ(θ)=Eπθ[θlogπθ(s,a)Gt] REINFORCE =Eπθ[θlogπθ(s

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值