策略梯度算法

策略梯度算法这一课我觉得还挺抽象的,有些也听不是太懂,可能是因为这一课的视频里帅帅的David没有出现……只有PPT,而且配合声音切换得不太好,看着很是不爽。不过看完了还是要来整理啊,不然像我这种不现学现用的,过几天就忘了hh,岂不是白看~好啦言归正传!

策略梯度的思想在上一篇文章中已经简要介绍过,可以用来快速逼近函数值,这一课就主要来介绍一下用策略梯度优化的核心思想和常用的三种方法,由浅入深是Finite Differences Policy Gradient 、Monte Carlo Policy Gradient 、Actor-Critic Policy Gradient。

一、 算法思想

在上一篇值函数近似算法中,我们用带有参数w的函数估计值来近似价值函数V(s)或动作价值函数Q(s , a),从而来选择或是说调整能够优化函数值的策略,这是我们常说的基于值函数的方法(Value-Based)。事实上,我们想做的就是对策略的控制,在策略梯度算法中,我们直接对策略进行参数化,通过控制这些参数权重,直接选择比较好的行为,也就是基于策略的方法(Policy-Based)。


当然,一种思想能被推广使用肯定要有它的优点。基于策略的优点就是有更好的收敛性,并且能够有效解决高维或者连续动作空间问题,再者就是能够学习随机策略。同时,它也有容易陷入局部最优的缺陷,并且总体更新效率略低于基于函数值的方法。以下这张图片表明了QAC和这两种思想的关系。


二、目标函数

从上面一个图片中策略π的表达式可以明确我们的算法目标,就是找到最好的参数θ。自然而然的,我们就想到了目标函数,没有目标函数就没办法来衡量策略的好坏,继而

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值