【强化学习】Trust Region Policy Optization(TRPO)

本文探讨了策略梯度方法的缺点,特别是步长调整问题,以及如何通过贝尔曼公式等价方法改进。介绍了四个关键技巧,包括旧策略分布近似、重要性采样、KL散度约束和使用π代替ρ。核心讲解了TRPO的伪代码,展示了如何通过这些技巧优化策略更新过程。

Policy Gradient的缺点

根据策略梯度方法,参数更新的方法是
θ n e w = θ o l d + α ∇ θ J \theta_{new}=\theta_{old}+\alpha\nabla_\theta J θnew=θold+αθJ
策略梯度算法的硬伤就在更新步长 α \alpha α,当步长不合适时,更新的参数所对应的策略是一个更不好的策略,当利用这个更不好的策略进行采样学习时,再次更新的参数会更差,因此很容易导致越学越差,最后崩溃。
在这里插入图片描述
(对于监督性学习来说,当某次迭代前后结果相差太大时,下一次更新有可能会解决这个问题)
合适的步长是指当策略更新后,回报函数的值不能更差。为了实现这一点,一般的想法就是将新策略的回报分解为旧策略的回报加上旧策略的一些什么东西。

贝尔曼公式的等效方法

假设 η ( π θ ) \eta(\pi_{\theta}) η(πθ)表示当前策略 π θ \pi_\theta πθ下轨迹 τ \tau τ的累积反馈值期望( π θ → π \pi_\theta\rightarrow\pi πθπ):
η ( π ) = E τ ∼ π [ ∑ t = 0 ∞ γ t ( r ( s t ) ) ] \eta(\pi)=E_{\tau\sim\pi}[\sum_{t=0}^\infty\gamma^t(r(s_t))] η(π)=Eτπ[t=0γt(r(st))]
其中 γ \gamma γ是折扣系数。则新策略 π ~ \widetilde{\pi} π 与旧策略 π \pi π之间存在以下关系(类似于贝尔曼公式):
η ( π ~ ) = η ( π ) + E τ ∼ π ~ [ ∑ t = 0 ∞ γ t A π ( s t , a t ) ] ,(1) \eta(\widetilde{\pi})=\eta(\pi)+E_{\tau\sim\widetilde{\pi}}[\sum_{t=0}^\infty\gamma^tA_\pi(s_t,a_t)]\text{,(1)} η(π )=η(π)+Eτπ [t=0γtAπ(st,at)],(1)
其中 A A A</

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值