[归纳]强化学习导论 - 第十一章：基于拟合器的off-policy控制

文章目录

1.本章内容概要
2.半梯度方法
3.Off-policy发散的例子
4.死亡三元组
5.线性值函数几何学
6.贝尔曼误差中的梯度下降
7.Bellman误差是不能学习的
8.梯度TD方法
9.Emphatic-TD方法
10.降低方差
11.总结
参考文献

1.本章内容概要

on-policy和off-policy方法是处理GPI中探索和利用矛盾的两种方法，其中on-policy方法只能学得一个次优的策略，而off-policy则能学得全局最优的策略。将off-policy方法结合拟合器，与on-policy方法的结合拟合器的方式相比要有很多区别，也更困难。之前我们介绍的那些off-policy方法可以直接扩展到拟合器的形式，但是收敛性不好。本章我们会研究下线性函数拟合器的收敛性问题，引入可学习性的概念，然后介绍在off-policy情形能更好地收敛的算法，但是这些方法还是不如on-policy时稳定。通过这些讨论，对于带拟合器的RL，无论是on-policy还是off-policy的，我们都会认识得更深刻。

在off-policy时，target策略 $\pi$ 是贪婪的，behavior策略 $b$ 是探索性的。对于预测问题，两个策略都是已知的；对于控制问题，两个策略都是变化的。我们的学习目标是得到 $\hat{v} \approx v_{\pi}$ 或者 $\hat{q} \approx q_{\pi}$ 。

off-policy方法中有两个关键挑战(更新目标的变化，更新分布的变化)：

更新目标如何定义。由于得到的样本是遵循 $b$ 的，而欲学习的值函数是 $\pi$ 的，因此必须设置合理的更新目标。我们采用重要性采样解决，无论对表格方法还是拟合器方法都类似。注意，重要性采样会扩大方差，但是消除了偏差。
我们得到的样本服从off-policy分布，而不是on-policy分布。我们在第八章介绍过，选择哪个状态/状态动作对更新是有技巧的，采用trajectory sampling更新效果很好，实际上on-policy分布对半梯度方法[因为这里的梯度是不准确的]的稳定性非常重要。解决这个有两种方法，一个是基于重要性采样调整update分布到on-policy分布；一个是采用不依赖任何特殊分布的真正的梯度方法。目前这也是一个开放的问题。

2.半梯度方法

这里我们只关心第一个挑战，我们直接把off-policy方法拓展到拟合器的形式。由于没考虑第二个挑战，导致算法在一些情况下会偏离，但是也有很多成功的应用场景。这里介绍的方法的稳定性和渐进无偏性对表格情形是成立的，表格情形是拟合器的特殊形式。因此，结合一些特征提取方法是有可能保证算法稳定的。

我们直接把之前介绍的off-policy方法的更新公式改成梯度的形式即可。回顾下per-step重要性采样比率：
$\rho_{t} \doteq \rho_{t : t}=\frac{\pi\left(A_{t} | S_{t}\right)}{b\left(A_{t} | S_{t}\right)}$
对于状态值，半梯度off-policy TD(0)的更新公式为：
$\mathbf{w}_{t+1} \doteq \mathbf{w}_{t}+\alpha \rho_{t} \delta_{t} \nabla \hat{v}\left(S_{t}, \mathbf{w}_{t}\right)$
式中的 $\delta_{t}$ 在episodic任务中是折扣的TD误差：
$\delta_{t} \doteq R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)$
在continuing任务中是平均回报TD误差：
$\delta_{t} \doteq R_{t+1}-\overline{R}_{t}+\hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)$
对于动作值，半梯度Expected Sarsa的更新公式为：
$\mathbf{w}_{t+1} \doteq \mathbf{w}_{t}+\alpha \delta_{t} \nabla \hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t}\right),$ 其中
$\delta_{t} \doteq R_{t+1}+\gamma \sum_{a} \pi\left(a | S_{t+1}\right) \hat{q}\left(S_{t+1}, a, \mathbf{w}_{t}\right)-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t}\right),$ 或
$\delta_{t} \doteq R_{t+1}-\overline{R}_{t}+\sum_{a} \pi\left(a | S_{t+1}\right) \hat{q}\left(S_{t+1}, a, \mathbf{w}_{t}\right)-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t}\right) .$
需要注意，这里也没有用重要性采样因子，这其实不像表格化方法那么直观，因为各个状态的值通过函数参数是相关的，因而一个episode中各个状态-动作对的更新都修改了同一个值函数，那么不能说与其它状态-动作对的值无关。这个问题要等到我们对带拟合器的RL认识更进一步后才能明确。

而对于多step情形，则必须加入重要性采样比率，例如n-step半梯度Expected Sarsa更新公式为：
$\mathbf{w}_{t+n} \doteq \mathbf{w}_{t+n-1}+\alpha \rho_{t+1} \cdots \rho_{t+n-1}\left[G_{t : t+n}-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t+n-1}\right)\right] \nabla \hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t+n-1}\right)$
其中，
$G_{t : t+n} \doteq R_{t+1}+\cdots+\gamma^{n-1} R_{t+n}+\gamma^{n} \hat{q}\left(S_{t+n}, A_{t+n}, \mathbf{w}_{t+n-1}\right),$ 或
$G_{t : t+n} \doteq R_{t+1}-\overline{R}_{t}+\cdots+R_{t+n}-\overline{R}_{t+n-1}+\hat{q}\left(S_{t+n}, A_{t+n}, \mathbf{w}_{t+n-1}\right)$
注意，对于 $\geq T$ ， $\rho_{k}=1$ ，且对于 $\geq T$ ， $G_{t : n}=G_t$ 。

我们还介绍过一种去掉重要性采样的方法n-step tree-backup算法，这里也可以采用：
$\begin{aligned} \mathbf{w}_{t+n} & \doteq \mathbf{w}_{t+n-1}+\alpha\left[G_{t : t+n}-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t+n-1}\right)\right] \nabla \hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t+n-1}\right) \\ G_{t : t+n} & \doteq \hat{q}\left(S_{t}, A_{t}, \mathbf{w}_\blue{t+n-1}\right)+\sum_{k=t}^{t+n-1} \delta_{k} \prod_{i=t+1}^{k} \gamma \pi\left(A_{i} | S_{i}\right) \end{aligned}$
其中， $\delta_t$ 采用半梯度Expected Sarsa的形式。注意式子中蓝色的部分原文应该是写错了，原文此处为 $\mathbf{w}_{t-1}$ 。这个式子很容易和第七章中n-step tree-backup的迭代公式对应，实际上两个式子是一样的，就是换了个写法。

当然，之前介绍的n-step $Q(\sigma)$ 也是可以改造的。

3.Off-policy发散的例子

这一小节我们讨论第二个挑战：behavior策略的轨迹与target策略的轨迹不同，导致trajectory sampling更新并不是对target策略的，从而导致收敛性的问题。下面给出几个例子说明：

MDP中取出两个状态问题
我们从一个MDP中取出两个状态，特征向量都是常数，例如分别是 $x(s_1)=1,x(s_2)=2$ ；线性拟合器我们因而也只取一个参数 $w$ 。在 $s_1$ 下，我们只有一个动作可选，且确定性地导向状态 $s_2$ ，因而有：

$s_1$ 的TD误差为：
$\delta_{t}=R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)=0+\gamma 2 w_{t}-w_{t}=(2 \gamma-1) w_{t}$
根据off-policy的半梯度TD(0)，有：
$w_{t+1}=w_{t}+\alpha \rho_{t} \delta_{t} \nabla \hat{v}\left(S_{t}, w_{t}\right)=w_{t}+\alpha \cdot 1 \cdot(2 \gamma-1) w_{t} \cdot 1=(1+\alpha(2 \gamma-1)) w_{t}$