Trust region policy optimization笔记
一、 论文解决的问题
相比于值函数方法,策略搜索算法无疑具有很多的优点。
(1) 直接策略搜索方法是对策略π进行参数化表示,与值函数方中对值函数进行参数化表示相比,策略参数化更简单,有更好的收敛性。
(2)值函数方法无法求解动作空间很大或者动作为连续集的问题。
)
策略搜索算法目前发展最迅速的是策略梯度方法。然而策略梯度方法存在着学习速率难以确定的问题。当更新步长不合适时,更新的参数所对应的策略会是一个更糟糕的策略。当利用这个不好的策略去采样学习后,又会使模型的性能变得更糟糕。所以,合适的学习步长对于策略梯度算法是至关重要的。为了解决这个问题学者们提出了基于统计学习的方法,基于路径积分的方法,回避学习速率问题。而TRPO并没有回避这个问题,而是找到了替代的损失函数,利用优化方法局部找到使得损失函数单调的步长。这样就保证了参数总是向着好的方向进行更新。
论文通过一系列测试说明TRPO算法能够学到复杂的策略比如游泳,跳和走,以及通过图像学习Atari游戏。
二、 算法理解
在策略搜索方法中,我们直接对策略进行迭代计算,也就是迭代更新参数值,直到累积回报的期望最大,此时的参数所对应的策略为最优策略。
所以作者就想到,既然累计回报是判断策略好坏的唯一标准,我们能不能将新策略所产生的回报值拆分成旧策略产生的回报值加上一个其他项。只要新的策略所对应的其他项是大于等于零的,那么新的策略就能保证回报函数单调不减。其实是存在这样的等式,这个等式是2002年Sham Kakade提出来的。TRPO的起点便是这样一个等式: