PPO(proximal policy optimization)算法

本文介绍了强化学习中的策略梯度方法,这是一种在策略空间中直接优化以最大化期望回报的算法。通过梯度上升法更新参数,策略梯度允许学习连续状态和动作的策略,无需值函数。文章还包含了轨迹、状态转移概率和期望奖励的概念及其关系。

博客写到一半发现有篇讲的很清楚,直接化缘了
https://www.jianshu.com/p/9f113adc0c50
https://zhuanlan.zhihu.com/p/111068310

Policy gradient

强化学习的目标:学习到一个策略 π θ ( a ∣ s ) \pi\theta(a|s) πθ(as)来最大化期望回报。
一种直接的方法就是在策略空间中直接搜索来得到最优策略,这种方法称为策略搜索(Policy Search)。策略搜索的本质是优化问题,可以分为基于梯度的优化和无梯度的优化,策略搜索和基于值函数的方法相比,策略搜索可以不需要值函数,直接优化策略。参数化的策略能处理连续状态和动作,可以直接学出随即性策略。策略梯度(Policy Gradient)是一种基于梯度的强化学习方法。假设 π θ ( a ∣ s ) \pi\theta(a|s) πθ(as)是一个关于θ的连续可微函数,可以用梯度上升的方法来优化参数θ使得目标函数 f ( θ ) f(\theta) f(θ)最大。

简单推导

trajectory ι = { s 1 , a 1 , s 2 , a 2 , . . . s ι , a ι } \iota=\{s_1,a_1,s_2,a_2,...s_\iota,a_\iota\} ι={ s1,a1,s2,a2,...sι,a

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值