Reinforcement Learning - An Introduction强化学习读书笔记 Ch11.6-Ch11.10

本文链接：https://blog.youkuaiyun.com/qq_41608822/article/details/108153344

本文探讨了强化学习中离线算法的挑战，特别是在函数逼近和off-policy学习方面。揭示了贝尔曼误差的不可学习性，提出了梯度TD方法、强调TD方法及方差减小策略，以解决离线学习中的关键问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

11.6 贝尔曼误差是不可学习的

事实证明，很多在强化学习中感兴趣的量，即使有无限多的数据，也时不可学习的，这些良定义的量在给定环境的内在结构时可以计算，但是不能从外部可观测的特征向量、动作和收益的序列中得到。
事实上贝尔曼误差BE是不可学习的，考虑两个MRP:
在这里插入图片描述
当两条边离开同一个状态时，两个转移都被认为时等概率发生的，数字表明了收益。
事实上左边的MRP只有一个状态，随机产生0/2的流。而后边的MRP有两个状态，而两个状态对应产生的收益是确定的。
但是从可观测数据上来看，两者是没有区别的，因为右边的MRP处于两个状态的概率是一致的，且也是由0和2随机组成的无限长的可观测数据，即使给定了无限数量的数据，仍然不能分辨MRP，无法区别有一个状态还是两个状态、是随机的还是确定的。
这一对MRP也展现了VE目标（均方价值误差）是不可学习的，同样的w在两个问题中会对应不同的VE，但是产生的数据却遵从同一分布。
但是需要注意的是，虽然VE不可学习，但是优化它的参数是可学习的。

引入均方回报误差RE，也就是每个时刻的估计价值与这个时刻之后的实际回报的误差：
在这里插入图片描述
因此VE和RE是相同的，除了一个不依赖于参数向量的方差，他们的最优参数值一定是一样的。

再回到BE，BE和VE类似的地方在于可以从MDP的知识中计算出来，但是不可以从数据中学起来，它与VE不同的地方在于其极小解是不可学习。
而从下面一个例子中来看：
在这里插入图片描述
两个MRP产生相同的数据分布，也就对应相同的均方回报误差RE，但是不同的MRP对应的均方价值误差是不一样的，那么学出来的最优参数是不同的，因此最优的参数向量并不是一个关于数据的函数，不能从数据中学习出来。
而考虑自举法的目标，可以由数据决定（可学习的），就可以决定最优解，只不过这种最优解通常与BE的最小值的解不同：
在这里插入图片描述
从相同的数据分布中，会学到相同的投影贝尔曼误差或均方TD误差的最优解，但是这些与分别学出来的BE解通常是不一样的。
从中可以看到BE是无法学习的，需要再知道底层MDP状态的情况下，才能最小化BE，残差梯度算法是唯一能最小化BE的算法，其允许从一个状态采样两次，这些状态不仅有相同的特征向量，而且有完全相同的MDP状态。

而进一步考虑两个MRP来加深对于BE不可学习的认识：
在这里插入图片描述
每个状态转移的概率都是1/2，w有两个分量，第一个分量决定A的值，第二个分量决定后两个状态的值。产生的数据分布是一致的，都是从状态A转移收益为0之后，转移k次收益为-1，然后回到状态A，两个MRP无法分别，但是两者的BE解是不同的，左侧MRP的最优解就是(0,0)，因为两个状态的期望收益都是0，但是右侧的真实价值函数应该为(0,1,-1)，那么的(0,0)对应的BE误差就是2/3。这两个MRP有相同的数据分布，但是有不同的BE，因此BE是不可学习的。
并且与VE不同，VE对于产生相同数据分布的不同MRP而言会有相同的解，但是BE不是，左侧的最优BE解在任意折扣率下都是(0,0)，但是右侧MRP的最优BE解是一个关于折扣率的复杂函数。当折扣率为1的时候，得到的最优BE解是(-1/2,0)，这是一个很难解释的解，因为A的状态值很明显是0，但是将A的价值设为负数能够有效较少由于进入和离开A的误差，也就是B的价值估计到0之后，因为B转移到A的收益为1，那么B的价值应该比A多1，那么A的价值就应该为负数，这样的设置才能最小化整体的BE误差。

11.7 梯度TD方法

不能使用BE，可以考虑以投影贝尔曼误差PBE作为目标，首先以矩阵形式扩展重写目标函数（其中的推导其实有点奇怪）：
在这里插入图片描述
为了将其转化为SGD方法，需要在每个时间点上采样，并把采样值作为期望值，所有的三个因子都可以写成这个分布的某个期望的形式，例如最后一个因子可以写成：

这其实就是半梯度TD(0)的期望，而第一个因子是这个更新梯度的转置：
在这里插入图片描述
中间的因子是特征向量的外积矩阵的期望的逆：

今儿把PBE三个梯度的三个因子转成这些期望的形式得到：

其中第一个和第三个因子不是独立的，都依赖于下一时刻的特征向量，可以进行采样得到，这样就可以朴素残差梯度方法一样得到一个有偏的估计。
另一个想法是分别估计这三个期望，然后合并起来得到一个梯度的无偏估计，但复杂度所需空间太高。
但分别存储一些估计，然后与样本进行合并是可取的，梯度TD估计并存储后两个因子，这些因子是d*d维的一个矩阵和一个d维向量，因此乘积只是一个d维向量，把这个学到的向量记为v：
在这里插入图片描述
这是试图从特征近似的最小二乘解，可以使用最小均方（LMS）方法：

那么针对PBE梯度，使用v来估计和存储后两个因子，再对第一个因子的期望进行采样，即可得到：

这个算法被称为GTD2。
再替换v之前可以多做几步分析：
在这里插入图片描述
该方法又被称为带梯度修正的TD(0)（TDC）或者GTD(0)
GTD2和TDC都包含两个学习过程，主要学习w，次要学习v，主要学习的逻辑依赖于次要学习结束或近似结束，而次要学习不受主要学习的影响，将这种不对称的依赖称为梯级。梯级通常假设次要学习进行得更快，因此总是处于它的渐近值，足够精准得辅助主要学习，这些方法的收敛性都需要显示地做这个假设。

11.8 强调TD方法

在离线学习中，使用重要度采样重新分配了状态转移的权重，使得它们变得适合学习目标策略，但是状态分布仍然是行动策略产生的，这就有了一个不匹配之处，一个自然的想法就是以某种方式重新分配状态的权重，强调一部分而淡化另外一部分，目的是将更新分布变为同轨策略分布。
对应的单步强调TD算法的定义如下：
在这里插入图片描述
其中I为兴趣值，M为强调值。

11.9 方差减小

off-policy本质上会具有更大的方差，只有当目标和行动策略相关时，即访问相似的状态并且采取类似的动作时，才能在off-policy训练过程中取得显著进步。
基于重要度采样的off-policy问题中，控制方差很重要，重要度采样通常包括策略比率的乘积，这些比率的期望总是1，但是其方差可能很大，但是在SGD方法中，这些比率会乘上学习步长，因此高方差就意味着步长之间的差异会很大。
引入动量、自适应设置分离步长、重要性权重感知、树回溯算法、允许目标策略部分由行动策略决定等方法可以减少off-policy带来的方差问题。