Reinforcement Learning - An Introduction强化学习读书笔记 Ch10.1-Ch10.6

10.1 分幕式半梯度控制

将上一章中的半梯度异步方法延伸到动作价值上是本节的主要内容,在更新时可以使用 q π ( S t , A t ) q_\pi(S_t,A_t) qπ(St,At)的任意近似,例如一些常见的回溯值,如完整的蒙特卡洛回报或n步Sarsa回报。
动作价值函数预测的梯度下降更新的一般形式是:
在这里插入图片描述
例如单步Sarsa算法的更新可以表示为:
在这里插入图片描述
该方法成为分幕式半梯度单步Sarsa,对于一个固定的策略该方法的收敛情况和TD(0)一样具有相同的误差边界。
具体的伪代码如下:
在这里插入图片描述
算法中即是估计了状态动作值之后,使用贪心方法来选择动作。

10.2 半梯度n步Sarsa

可以使用n步回报来代替单步回报,来把上面的单步Sarsa方法转为n步Sarsa方法。
将n步回报从表格型形式推广到函数估计的形式:
在这里插入图片描述
而对应的更新公式就是:
在这里插入图片描述
而对应的伪代码就是:
在这里插入图片描述
注意该算法与之前算法的唯一不同就是回报的形式不同,w的更新方式不同。

10.3 平均收益:持续性任务中的新的问题设定

MDP过程中第三种经典的目标设定:“平均收益”设定。
平均收益即不考虑任何折扣,agent对于延迟收益和对即时收益的重视度是一样的,平均收益的定义如下:在这里插入图片描述
即回归进入强化学习最开始的对于回报的定义公式。考虑三方面的求和平均,考虑所有状态,所有一个状态下的所有动作,考虑状态和动作对应的下个状态的收益和收益概率的乘积,即可得到平均回报的期望值。
注意其中 μ π \mu_\pi μπ是一个稳态分布,假设对于每一个 π \pi π都存在并且独立于 S 0 S_0 S0的,并且MDP是具有遍历性的,也就是开始的位置或者agent的早期决定只是临时的作用,从长远来看,一个状态的期望值与策略本身以及MDP的转移概率有关,也就是:
在这里插入图片描述
稳态分布是一个特殊的分布,即如果按照 π \pi π选择动作也会得到相同的分布:
在这里插入图片描述
在平均收益设定中,回报是根据即时收益和平均收益的差来定义的:
在这里插入图片描述
这称为差分回报,对应的价值函数、贝尔曼方程都有对应的差分形式,去掉所有的折扣因子,并且用即时收益和真实平均收益之间的差来代替原来的即时收益:
在这里插入图片描述
对应的TD误差的差分形式为:
在这里插入图片描述
那对应的半梯度Sarsa的平均收益版本,只需要改动TD误差即可,伪代码如下:
在这里插入图片描述

10.4 弃用折扣

持续性的带折扣问题的公式化表达在表格型情况下非常有用,因为每个状态的回报可以被分别地识别和平均,但是在采用函数估计的情况下,则可以弃用折扣因子。
采用折扣时,可以计算得到折后回报和平均回报是成正比的,也就是对于策略 π \pi π,折后回报的平均值是 r ( π ) / ( 1 − γ ) r(\pi)/(1-\gamma) r(π)/(1γ),也就是说它本质上就是平均收益 r ( π ) r(\pi) r(π)
特别需要注意的是,在平均折后回报的设定中的策略排序,和平均收益设定中的策略排序是完全一样的,折扣率实际是没有用的。
通过假定策略排序的准则为折后回报的概率加权和,概率分布是给定策略下的状态分布,这时通过以下的数学证明其实折扣因子是可以去掉的:
在这里插入图片描述
该式中表明折扣在使用函数估计的控制问题定义中不起作用。
使用函数估计的折扣控制设定困难的根本原因在于我们失去了策略改进定理,我们再单个状态上改进折后状态不再保证我们会改进这个策略,无法满足这个就无法进行强化学习控制。

事实上,策略改进定理的缺失也是分幕式设定以及平均收益设定的理论缺陷,一旦引入了函数逼近,就无法保证在任何设定下都一定会有策略的改进,目前所讲到的学习动作价值的方法还没有一个局部的保证。

10.5 差分半梯度n步Sarsa

为了推广到n步自举法,之前的n步TD误差改为差分形式:
在这里插入图片描述
而对应的完整伪代码如下:
在这里插入图片描述
该算法即是把10.2的半梯度n步Sarsa和10.3中的半梯度差分Sarsa结合到一起。

10.6 本章小结

本章延伸了第九章中介绍的参数化函数估计和半梯度下降的思想,并引入了控制问题中。
并且针对持续性任务,本章引入了新的表达式,基于平均收益,并且从数学上证明了在函数估计的情况下,折扣因子是没用的。
平均收益的公式化表达涉及价值函数、贝尔曼方程和TD误差的新的差分版本,但所有版本和旧版本都相似,而且概念上的变化很小。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值