Reinforcement Learning - An Introduction强化学习读书笔记 Ch11.6-Ch11.10

本文探讨了强化学习中离线算法的挑战,特别是在函数逼近和off-policy学习方面。揭示了贝尔曼误差的不可学习性,提出了梯度TD方法、强调TD方法及方差减小策略,以解决离线学习中的关键问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

11.6 贝尔曼误差是不可学习的

事实证明,很多在强化学习中感兴趣的量,即使有无限多的数据,也时不可学习的,这些良定义的量在给定环境的内在结构时可以计算,但是不能从外部可观测的特征向量、动作和收益的序列中得到。
事实上贝尔曼误差BE是不可学习的,考虑两个MRP:
在这里插入图片描述
当两条边离开同一个状态时,两个转移都被认为时等概率发生的,数字表明了收益。
事实上左边的MRP只有一个状态,随机产生0/2的流。而后边的MRP有两个状态,而两个状态对应产生的收益是确定的。
但是从可观测数据上来看,两者是没有区别的,因为右边的MRP处于两个状态的概率是一致的,且也是由0和2随机组成的无限长的可观测数据,即使给定了无限数量的数据,仍然不能分辨MRP,无法区别有一个状态还是两个状态、是随机的还是确定的。
这一对MRP也展现了VE目标(均方价值误差)是不可学习的,同样的w在两个问题中会对应不同的VE,但是产生的数据却遵从同一分布。
但是需要注意的是,虽然VE不可学习,但是优化它的参数是可学习的。

引入均方回报误差RE,也就是每个时刻的估计价值与这个时刻之后的实际回报的误差:
在这里插入图片描述
因此VE和RE是相同的,除了一个不依赖于参数向量的方差,他们的最优参数值一定是一样的。

再回到BE,BE和VE类似的地方在于可以从MDP的知识中计算出来,但是不可以从数据中学起来,它与VE不同的地方在于其极小解是不可学习。
而从下面一个例子中来看:
在这里插入图片描述
两个MRP产生相同的数据分布,也就对应相同的均方回报误差RE,但是不同的MRP对应的均方价值误差是不一样的,那么学出来的最优参数是不同的,因此最优的参数向量并不是一个关于数据的函数,不能从数据中学习出来。
而考虑自举法的目标,可以由数据决定(可学习的),就可以决定最优解,只不过这种最优解通常与BE的最小值的解不同:
在这里插入图片描述
从相同的数据分布中,会学到相同的投影贝尔曼误差或均方TD误差的最优解,但是这些与分别学出来的BE解通常是不一样的。
从中可以看到BE是无法学习的,需要再知道底层MDP状态的情况下,才能最小化BE,残差梯度算法是唯一能最小化BE的算法,其允许从一个状态采样两次,这些状态不仅有相同的特征向量,而且有完全相同的MDP状态。

而进一步考虑两个MRP来加深对于BE不可学习的认识:
在这里插入图片描述
每个状态转移的概率都是1/2,w有两个分量,第一个分量决定A的值,第二个分量决定后两个状态的值。产生的数据分布是一致的,都是从状态A转移收益为0之后,转移k次收益为-1,然后回到状态A,两个MRP无法分别,但是两者的BE解是不同的,左侧MRP的最优解就是(0,0),因为两个状态的期望收益都是0,但是右侧的真实价值函数应该为(0,1,-1),那么的(0,0)对应的BE误差就是2/3。这两个MRP有相同的数据分布,但是有不同的BE,因此BE是不可学习的。
并且与VE不同,VE对于产生相同数据分布的不同MRP而言会有相同的解,但是BE不是,左侧的最优BE解在任意折扣率下都是(0,0),但是右侧MRP的最优BE解是一个关于折扣率的复杂函数。当折扣率为1的时候,得到的最优BE解是(-1/2,0),这是一个很难解释的解,因为A的状态值很明显是0,但是将A的价值设为负数能够有效较少由于进入和离开A的误差,也就是B的价值估计到0之后,因为B转移到A的收益为1,那么B的价值应该比A多1,那么A的价值就应该为负数,这样的设置才能最小化整体的BE误差。

11.7 梯度TD方法

不能使用BE,可以考虑以投影贝尔曼误差PBE作为目标,首先以矩阵形式扩展重写目标函数(其中的推导其实有点奇怪):
在这里插入图片描述
为了将其转化为SGD方法,需要在每个时间点上采样,并把采样值作为期望值,所有的三个因子都可以写成这个分布的某个期望的形式,例如最后一个因子可以写成:
在这里插入图片描述
这其实就是半梯度TD(0)的期望,而第一个因子是这个更新梯度的转置:
在这里插入图片描述
中间的因子是特征向量的外积矩阵的期望的逆:
在这里插入图片描述
今儿把PBE三个梯度的三个因子转成这些期望的形式得到:
在这里插入图片描述
其中第一个和第三个因子不是独立的,都依赖于下一时刻的特征向量,可以进行采样得到,这样就可以朴素残差梯度方法一样得到一个有偏的估计。
另一个想法是分别估计这三个期望,然后合并起来得到一个梯度的无偏估计,但复杂度所需空间太高。
但分别存储一些估计,然后与样本进行合并是可取的,梯度TD估计并存储后两个因子,这些因子是d*d维的一个矩阵和一个d维向量,因此乘积只是一个d维向量,把这个学到的向量记为v:
在这里插入图片描述
这是试图从特征近似的最小二乘解,可以使用最小均方(LMS)方法:
在这里插入图片描述
那么针对PBE梯度,使用v来估计和存储后两个因子,再对第一个因子的期望进行采样,即可得到:
在这里插入图片描述
这个算法被称为GTD2。
再替换v之前可以多做几步分析:
在这里插入图片描述
该方法又被称为带梯度修正的TD(0)(TDC)或者GTD(0)
GTD2和TDC都包含两个学习过程,主要学习w,次要学习v,主要学习的逻辑依赖于次要学习结束或近似结束,而次要学习不受主要学习的影响,将这种不对称的依赖称为梯级。梯级通常假设次要学习进行得更快,因此总是处于它的渐近值,足够精准得辅助主要学习,这些方法的收敛性都需要显示地做这个假设。

11.8 强调TD方法

在离线学习中,使用重要度采样重新分配了状态转移的权重,使得它们变得适合学习目标策略,但是状态分布仍然是行动策略产生的,这就有了一个不匹配之处,一个自然的想法就是以某种方式重新分配状态的权重,强调一部分而淡化另外一部分,目的是将更新分布变为同轨策略分布。
对应的单步强调TD算法的定义如下:
在这里插入图片描述
其中I为兴趣值,M为强调值。

11.9 方差减小

off-policy本质上会具有更大的方差,只有当目标和行动策略相关时,即访问相似的状态并且采取类似的动作时,才能在off-policy训练过程中取得显著进步。
基于重要度采样的off-policy问题中,控制方差很重要,重要度采样通常包括策略比率的乘积,这些比率的期望总是1,但是其方差可能很大,但是在SGD方法中,这些比率会乘上学习步长,因此高方差就意味着步长之间的差异会很大。
引入动量、自适应设置分离步长、重要性权重感知、树回溯算法、允许目标策略部分由行动策略决定等方法可以减少off-policy带来的方差问题。

11.10 本章小结

将off-policy思想扩展到函数逼近的时候,会面临新的挑战,也迫使去加深对强化学习的理解。离线学习面临的挑战主要是纠正行动策略的学习目标(高方差)、包含了自举法的半梯度TD方法的不稳定性。
本章还讨论了多种误差用于离线函数逼近的可学习性,也提供了强调TD方法、方差减小方法等思路。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值