博客写到一半发现有篇讲的很清楚,直接化缘了
https://www.jianshu.com/p/9f113adc0c50
https://zhuanlan.zhihu.com/p/111068310
Policy gradient
强化学习的目标:学习到一个策略 π θ ( a ∣ s ) \pi\theta(a|s) πθ(a∣s)来最大化期望回报。
一种直接的方法就是在策略空间中直接搜索来得到最优策略,这种方法称为策略搜索(Policy Search)。策略搜索的本质是优化问题,可以分为基于梯度的优化和无梯度的优化,策略搜索和基于值函数的方法相比,策略搜索可以不需要值函数,直接优化策略。参数化的策略能处理连续状态和动作,可以直接学出随即性策略。策略梯度(Policy Gradient)是一种基于梯度的强化学习方法。假设 π θ ( a ∣ s ) \pi\theta(a|s) πθ(a∣s)是一个关于θ的连续可微函数,可以用梯度上升的方法来优化参数θ使得目标函数 f ( θ ) f(\theta) f(θ)最大。
简单推导
trajectory ι = { s 1 , a 1 , s 2 , a 2 , . . . s ι , a ι } \iota=\{s_1,a_1,s_2,a_2,...s_\iota,a_\iota\} ι={ s1,a1,s2,a2,...sι,a

本文介绍了强化学习中的策略梯度方法,这是一种在策略空间中直接优化以最大化期望回报的算法。通过梯度上升法更新参数,策略梯度允许学习连续状态和动作的策略,无需值函数。文章还包含了轨迹、状态转移概率和期望奖励的概念及其关系。
最低0.47元/天 解锁文章
8265

被折叠的 条评论
为什么被折叠?



