【强化学习】资格迹（Eligibility Traces）

sword_csdn

已于 2022-08-11 11:39:14 修改

阅读量3.2k

点赞数 6

分类专栏：机器学习文章标签：机器学习

于 2021-09-28 13:07:38 首次发布

本文链接：https://blog.youkuaiyun.com/sword_csdn/article/details/120516941

版权

机器学习专栏收录该内容

40 篇文章

订阅专栏

前言

资格迹是强化学习的基本方法之一，几乎所有用时序差分的算法都可以与资格迹结合起来，从而可以获得一个更加有效且具一般性的方法。

已知强化学习的本质是找最优策略 $\pi_*$ ，最优策略 $\pi_*$ 等价于最优动作 $\pi_*(s)$ ，最优动作 $\pi_*(s)$ 可以由最优状态价值 $v_*(s)$ （或者最优行动价值 $q_*(s,a)$ ）决定。在基于Approximation的方法中，求解 $v_*(s)$ 或者是 $q_*(s,a)$ 表示为近似预测函数 $\hat{v}(s,w)$ 或者 $\hat{q}(s,a,w)$ 。

已知线性近似的状态价值函数可以写作权重向量 $w$ 和状态向量 $x (s)$ 的内积。
$\hat{v}(s,w)=w^Tx(s)=\displaystyle\sum_{i=1}^dw_ix_i(s)$
根据MC算法的随机梯度下降（stochastic gradient-descent，SGD）方法求解权重 $w$
$w_{t+1}=w_t+\alpha[G_t-\hat{v}(S_t,w_t)]\nabla\hat{v}(S_t,w_t)$ 在求 $w$ 的过程中， $\alpha$ ， $G_t$ ， $\nabla\hat{v}(S_t,w_t)$ 都有自己的优化方法。
· $\alpha$ 是步长，如果 $G_t-\hat{v}(S_t,w_t)$ 太大，则其 $\alpha$ 要变小。
· $G_t$ 的计算可以通过 $\lambda$ -return方法。
· $\hat{v}(S_t,w_t)$ 可以用资格迹来优化，资格迹就是优化后的函数微分。

$\lambda$ - return

$\lambda$ - return提供了一个新的方式来估算 $G_t$ ，新的估计定义为 $G_t^{\lambda}$ 。
前面我们定义了n步回报
$G_{t:t+n}=R_{t+1}+\gamma R_{t+1}...+\gamma^{n-1}R_{t+n}+\gamma^nV_{t+n-1}(S_{t+n})$ 其中 $n\geq1,0\leq t<T-n$ 。对于任意参数化的函数逼近，可以将其一般化为：
$G_{t:t+n}=R_{t+1}+\gamma R_{t+1}...+\gamma^{n-1}R_{t+n}+\gamma^nV_{t+n-1}(S_{t+n},w_{t+n-1}),0\leq t\leq T-n$ 此时 $G_t^\lambda$ 为后面所有 $G_{t:t+n}$ 的加权平均值。
$\begin{cases} G_t^\lambda=(1-\lambda)\displaystyle\sum_{n=1}^\infty\lambda^{n-1}G_{t:t+n},continuing\text{ }tasks\\ \\ G_t^\lambda=(1-\lambda)\displaystyle\sum_{n=1}^{T-t-1}\lambda^{n-1}G_{t:t+n}+\lambda^{T-t-1}G_t,episodic \text{ }tasks \end{cases}$ 其中
$\begin{cases} \lambda\in[0,1]\\ \\ (1-\lambda)\displaystyle\sum_{n=1}^\infty\lambda^{n-1}=1\\ \\ (1-\lambda)\displaystyle\sum_{n=1}^{T-t-1}\lambda^{n-1}+\lambda^{T-t-1}=1 \end{cases}$ 如果 $\lambda=1$ ，则 $\lambda$ - return的更新算法就是MC算法，如果 $\lambda=0$ ， $\lambda$ - return即为 $G_{t:t+1}$ ，即单步回报，就是单步时序差分算法。

此时可以定义基于 $\lambda$ - return的学习算法，即off-line $\lambda$ - return算法。作为一个off - line算法，在一个episode中间不会改变权值向量。在整个episode结束后，才会进行整个序列的离线更新。根据semi - SGD准则，使用 $\lambda$ - return， $G_t^\lambda$ 作为目标。 $w_{t+1}\dot{=}w_t+\alpha[G_t^\lambda-\hat{v}(S_t,w_t)]\nabla\hat{v}(S_t,w_t)$ 其中 $t = 0, ..., T - 1$ 。

TD( $\lambda$ )

TD( $\lambda$ )通过三种方式改进了 off - line $\lambda$ - return算法。
（1）算法在一个episode序列内每一步都会更新权重向量，而不是等到episode结束。
（2）算法的计算平均分配在整个时间轴上，而不仅仅是episode的结尾。
（3）不仅仅适用于episodic问题，也适用与continuing问题。
对于（1），其实是on-line化，也就是边采样，变更新 $w$ ，所以要使用能执行on - line算法的 TD error，首先目标 $U_t$ 为： $U_t=R_{t+1}+\gamma\hat{v}(S_{t+1},w_t)$ 对应的TD error为： $\delta_t=R_{t+1}+\gamma\hat{v}(S_{t+1},w_t)-\hat{v}(S_t,w_t)$ 对于（2），即可增量计算，通过资格迹 $z_t\in\mathbb{R}^d$ 在采样的同时，记录当前时刻的 $\nabla\hat{v}(S_t,w_t)$ ，并通过折扣因子 $\gamma$ 和迹衰减参数 $\lambda$ 对求和项中的历史值函数梯度 $\nabla\hat{v}(S_{t-k},w_{t-k})$ 进行衰减实现。

对于（3），Continuing化，使用Approximation方法构造近似值函数 $\hat{v}(S,w)$ 。

在TD( $\lambda$ )中，off-line $\lambda$ - return的 $G_t^\lambda$ 被替换为支持在线学习的 $R_{t+1}+\gamma\hat{v}(S_{t+1},w_t)$ ，但是这个操作让算法失去了可调节前向视角（forward view）远近的衰减参数 $\lambda$ ，退化成了one - step TD learning。为了解决这个问题，可以将 $\lambda$ 用于优化 $\nabla\hat{v}(S_t,w_t)$ 。已知在这之前，权重的更新公式如下： $w_{t+1}\dot{=}w_t+\alpha\delta_t\nabla\hat{v}(S_t,w_t)$ 要想重新加入迹衰减参数 $\lambda$ ，就需要梯度更新迭代式。由于 $\nabla\hat{v}(S_t,w_t)$ 和 $w$ 维度相同，因此可以设定一个新的可表征历史梯度的，并且也与 $w$ 同维度的向量 $z_t\in\mathbb{R}^d$ ，其递推式如下： $\begin{cases} z_{-1}\dot{=}0\\ z_t\dot{=}\gamma\lambda z_{t-1}+\nabla\hat{v}(S_t,w_t),0\leq t\leq T \end{cases}$ 其中， $\gamma$ 是折扣系数，而 $\lambda$ 为衰减率参数。那 $z_t$ 是什么？
展开 $z_t$ 来看 $z_t=1*\nabla\hat{v}(S_t,w_t)+(\gamma\lambda)*\nabla\hat{v}(S_{t-1},w_{t-1})+(\gamma\lambda)^2*\nabla\hat{v}(S_{t-2},w_{t-2})+...+(\gamma\lambda)^{t-1}*\nabla\hat{v}(S_1,w_1)$ 由此， $z_t$ 可以看作是( $\gamma\lambda$ )的 $t - 1$ 阶多项式，即累计折扣值函数梯度，它不断记录当前时刻的值函数梯度，并且通过折扣淡化历史值函数梯度。
在这里插入图片描述
TD( $\lambda$ )的更新公式 $w_{t+1}\dot{=}w_t+\alpha\delta_tz_t$ 资格迹 $z_t$ 中Trace的含义是，追踪并记录历史值函数梯度。而Eligibility的含义是，权重向量 $w$ 中的每个分量有多少资格接受对应的更新。
迹衰减参数和( $\gamma\lambda$ )的意义：
（1）对历史值函数梯度进行折扣，从而达到梯度短期记忆。
（2）通过值域 $[0, 1]$ 来调节记忆量。