Temporal Difference - 时序差分学习

最新推荐文章于 2025-05-01 21:39:42 发布

原创最新推荐文章于 2025-05-01 21:39:42 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#Temporal Difference #Temporal Differenc Learning #Reinforcement Learing #Model-Free Policy Evaluation

强化学习专栏收录该内容

28 篇文章

订阅专栏

本文深入解析TD学习，一种结合蒙特·卡罗方法与动态规划的无模型策略评估技术，适用于不可重复及非有限情境。重点介绍TD(0)算法，通过采样更新价值估计，实现快速迭代与信息高效利用。

这篇博客是前面一篇博客Model-Free Policy Evaluation 无模型策略评估的一个小节，因为TD本身也是一种无模型策略评估方法。原博文有对无模型策略评估方法的详细概述。

Temporal Difference(TD)

时序差分

“if one had to identify one idea as central and novel to reinforcement learning, it would undoubtedly be temporal-difference(TD) learning.” - Sutton and Barto 2017

如果要选出对强化学习来说是最核心且最新颖的思想，那好毫无疑问是时序差分学习。-Sutton and Barto 2017
它结合了蒙特·卡罗尔(策略评估)方法和动态规划方法
不依赖模型
Boostraps和samples(采样)都进行
Bootstrapping通常被用于近似未来回报的折扣总和；Sampling通常被用于近似所有状态上的期望。
在可重复进行和非有限horizon非重复情境下都可以使用(这说明它解决了动态规划和蒙特·卡罗尔方法的缺点，博主注)
在每一次 $(s, a, r, s^{'})$ 四元组(即每一次状态变迁/每一次Observation)发生后都立即更新 $V$ 的估计

Temporal Difference Learning for Estimating V

目标：在给定由于遵循策略 $\pi$ 而产生的所有轮次的条件下估计 $V^\pi(s)$
MDP M在遵循策略 $\pi$ $G_t=r_t+\gamma t_{t+1}+\gamma^2r_{t+2}+\gamma^3r_{t+3}+...$
$V^\pi(s)=\mathbb{E}_\pi[G_t|s_t=s]$
重温Bellman operator (如果MDP模型已知)
$B^\pi V(s)=r(s,\pi(s))+\gamma \sum_{s' \in S}p(s'|s,\pi(s))V(s')$
递增every-visit MC算法，使用一次对回报的采样更新估计
$V^\pi(s) = V^\pi(s)+\alpha(G_{i, t}-V^\pi(s))$
灵感：已经有一个 $V^\pi$ 的估计器，使用下面的方法估计回报的期望
$V\pi(s) = V\pi(s) + \alpha([r_t+\gamma V^\pi(s_{t+1})]-V^\pi(s))$

Temporal Difference [TD(0)] Learning

时序差分学习

目标：在给定由于遵循策略 $\pi$ 而产生的所有轮次的条件下估计 $V^\pi(s)$ (同上)
- $s_1,a_1,r_1,s_2,a_2,r_2,...$ 其中动作a在策略 $\pi$ 下采样而来
最简单的采样TD学习：以趋近估计值的方式更新价值
$V^\pi(s_t)=V^\pi(s_t)+\alpha([r_t+\gamma V^\pi(s_{t+1})]-V^\pi(s_t))$
TD target = $[r_t+\gamma V^\pi(s_{t+1})]$
请注意，这里没有求和，我们是采样，所以上面的式子里只有一个下一个状态，而不是所有的未来状态。而且像动态规划那样，我们会使用先前的 $V^\pi$ 估计。所以你可以把式子左边的 $V^\pi(s_t)$ 写成 $V_{k+1}^\pi(s_t)$ ，右边的 $V^\pi(s_t)$ 写成 $V_{k}^\pi(s_t)$ 。和动态规划的区别在于，动态规划相当于更新了整个价值函数，这里相当于仅更新了价值函数的一个项。
TD error：
$\delta_t = r_t + \gamma V^\pi(s_{t+1})-V^\pi(s_t)$
$V^\pi(s_t) \approx$ 下一个状态 $s^{'}$ 上的期望
可以在一次状态变迁(s,a,r,s’)发生后立即更新价值估计
不要求必须是可重复情景

这毫无疑问是偏差估计。一般来说，当你做bootstrap的时候，它就会是有偏差估计，因为你依赖之前的估计器，而之前的估计器通常不准确，所以会带有一个偏向特定方向的bias。而且它也可能会有很高的方差，所以它有可能既高方差也高偏差。跟蒙特·卡罗尔方法相比，通常会有较小的方差，因为bootstrapping帮助你在多样性(variability)上取了平均。它的优点在于：可以很快的更新，不需要等到当前轮次的结束并且可以使用大量的信息。

Temporal Difference [TD(0)] Learning Algorithm

Input: $\alpha$
Initialize $V^\pi=0, \forall s \in S$
Loop

Sample tuple $s_t, a_t, r_t, s_{t+1})$
$V^\pi(s_t)=V^\pi(s_t) + \alpha([r_t+\gamma V^\pi(s_{t+1}]-V^\pi(s_t))$
TD target = $[r_t+\gamma V^\pi(s_{t+1})]$