深度强化学习cs294 Lecture5: Policy Gradients Introduction

首先回顾强化学习的目标。强化学习问题可以看成一个建立在马尔科夫决策过程之上的序列决策问题,其中要调整的部分是采取动作的策略函数,现在很多都使用神经网络来得到。强化学习的目标就是找到一个策略,能够最大化一个序列反馈和的期望值。
在这里插入图片描述
而对于序列反馈期望值的计算可以分为两种情况,一种是有限步数的情况,一种是无限步数的情况。这两种情况实际上是一样的,不过写为期望的形式略有不同。无限步长的情况也可以根据一个最终的稳定分布写为类似的形式。今天我们只关注有限步长的形式,在后面讲到actor-critic算法时会讲到有限步延伸到无限步。实际上有限步长里最优的策略是个时变函数,当然我们这里不考虑时变这一点,依然当做是一个与时间无关的函数。
在这里插入图片描述
因为序列的概率分布实际上无法得到,因此我们一般都是用采样的方式来近似得到期望的结果。
在这里插入图片描述

1. The policy gradient algorithm

我们知道了强化学习的目标是求得最大化期望反馈和的策略参数,因此有一种比较直接的方式就是对目标函数进行直接梯度上升法求解。

如图所示,其中对策略求导的部分用对数求导的等式可以让梯度也写为一个期望的形式:
在这里插入图片描述
因为公式里一直用的是序列 τ \tau τ的概率,而序列 τ \tau τ的概率实际上是一堆乘积的形式。写开之后求log变为和的形式,再求导去掉部分无关项:
在这里插入图片描述
期望值括号里的部分已经可以得到,但是期望依然无法求解。不过还是很简单地使用采样逼近期望值即可,于是直接进行policy gradient的算法就得到了,这个算法也叫作REINFORCE算法:
在这里插入图片描述

2. What does the policy gradient do?

来进一步的观察这个策略梯度的算法。用之前模仿学习里面讲到的例子,我们发现与直接进行最大似然的方法相比,策略梯度法的梯度仅仅是相当于对每一项使用了对应序列反馈值和来进行加权:
在这里插入图片描述
这个算法相当于对于表现的比较好也就是反馈和比较大的例子,选择增大其出现的可能性,而表现得比较差的就减小其可能性。与最大似然的方法相比区别在于对每个样本是区别对待的。这个概念也就是trial and error的想法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值