Trust region policy optimization笔记

Trust Region Policy Optimization(TRPO)是一种强化学习算法,解决了策略梯度方法中学习速率选择的难题。通过保证策略更新的单调性和限制KL散度,TRPO能够在不牺牲模型性能的情况下增加学习步长。本文深入探讨TRPO的理论基础,包括策略优化的目标函数、近似方法以及在实际应用中的挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Trust region policy optimization笔记

一、 论文解决的问题

相比于值函数方法,策略搜索算法无疑具有很多的优点。

(1) 直接策略搜索方法是对策略π进行参数化表示,与值函数方中对值函数进行参数化表示相比,策略参数化更简单,有更好的收敛性。

(2)值函数方法无法求解动作空间很大或者动作为连续集的问题。

1.png]![这里写图片描述)

策略搜索算法目前发展最迅速的是策略梯度方法。然而策略梯度方法存在着学习速率难以确定的问题。当更新步长不合适时,更新的参数所对应的策略会是一个更糟糕的策略。当利用这个不好的策略去采样学习后,又会使模型的性能变得更糟糕。所以,合适的学习步长对于策略梯度算法是至关重要的。为了解决这个问题学者们提出了基于统计学习的方法,基于路径积分的方法,回避学习速率问题。而TRPO并没有回避这个问题,而是找到了替代的损失函数,利用优化方法局部找到使得损失函数单调的步长。这样就保证了参数总是向着好的方向进行更新。

论文通过一系列测试说明TRPO算法能够学到复杂的策略比如游泳,跳和走,以及通过图像学习Atari游戏。

二、 算法理解

在策略搜索方法中,我们直接对策略进行迭代计算,也就是迭代更新参数值,直到累积回报的期望最大,此时的参数所对应的策略为最优策略。

这里写图片描述
所以作者就想到,既然累计回报是判断策略好坏的唯一标准,我们能不能将新策略所产生的回报值拆分成旧策略产生的回报值加上一个其他项。只要新的策略所对应的其他项是大于等于零的,那么新的策略就能保证回报函数单调不减。其实是存在这样的等式,这个等式是2002年Sham Kakade提出来的。TRPO的起点便是这样一个等式:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值