时序差分学习（Temporal Difference Learning, TD Learning）

原创

于 2025-05-01 21:39:42 发布 · 1.1k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习

1. 强化学习基础

为了理解时序差分学习，我们先回顾强化学习的核心概念。强化学习是一种机器学习范式，目标是通过与环境的交互，让智能体学习一个最优策略，以最大化长期累积奖励。

强化学习的关键元素

智能体：执行动作的实体，如玩游戏的AI。
环境：智能体交互的外部世界，如游戏场景。
状态（ $s$ ）：描述环境某一时刻的状况，如游戏中的位置、分数等。
动作（ $a$ ）：智能体在某状态下可采取的行为，如“向左走”。
奖励（ $r$ ）：环境对智能体动作的反馈，是标量值，如得分+1。
策略（ $π\pi$ ）：智能体的决策规则，定义状态 $s$ 下选择动作 $a$ 的概率，记为 $π(a∣s)\pi(a|s)$ 。
价值函数：评估状态或动作的长期价值。
- 状态价值函数 $Vπ(s)V^\pi(s)$ ：在策略 $π\pi$ 下，从状态 $s$ 开始的预期累积奖励。
- 动作价值函数 $Qπ(s,a)Q^\pi(s, a)$ ：在策略 $π\pi$ 下，从状态 $s$ 采取动作 $a$ 后的预期累积奖励。
折扣因子（ $γ\gamma$ ）：衡量未来奖励的重要性， $\leq \gamma \leq 1$ 。当 $γ=0\gamma = 0$ 时，只关心即时奖励；当 $γ=1\gamma = 1$ 时，未来奖励与当前同等重要。

强化学习的数学目标

强化学习的最终目标是找到一个最优策略 $π∗\pi^*$ ，使状态价值函数 $Vπ∗(s)V^{\pi^*}(s)$ 或动作价值函数 $Qπ∗(s,a)Q^{\pi^*}(s, a)$ 最大化。通常，我们通过以下公式定义累积奖励（也叫回报）：

$Gt=rt+1+γrt+2+γ2rt+3+⋯G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots$

其中 $G_t$ 是时间步 $t$ 开始的折扣回报， $r_{t+1}$ 是下一步的即时奖励。

强化学习的挑战

与监督学习不同，强化学习没有明确的标签，智能体需通过试错学习。价值函数的估计是核心问题，而时序差分学习是解决这一问题的有效方法。

2. 时序差分学习的定义与核心思想

什么是时序差分学习？

时序差分学习（TD Learning）是强化学习的核心方法，结合了蒙特卡洛方法和动态规划的优点，用于估计价值函数（如 $V (s)$ 或 $Q (s, a)$ ）。

核心思想：TD学习通过当前估计的价值函数和实际观察的奖励，逐步更新价值函数，无需等到回合结束。
“时序差分”：利用时间序列中相邻时间步的“差分”更新价值估计。TD学习基于当前状态的奖励和下一状态的估计值，计算“误差”（TD误差），调整当前状态的价值。

为什么需要TD学习？

在强化学习中，价值函数 $V (s)$ 或 $Q (s, a)$ 通过预期累积奖励定义，但实际环境中，智能体无法直接计算完整回报 $G_t$ 。TD学习提供了一种在线、增量式的方法，使智能体在每步交互后即可更新价值估计。

TD学习的优点

在线学习：每步可更新价值函数，适合实时交互。
高效性：无需完整回合数据，计算成本低。
鲁棒性：对噪声和不完全信息适应性强。

3. TD学习的数学原理

为深入理解TD学习，我们从数学公式入手，以状态价值函数 $V (s)$ 的估计为例，介绍TD学习的更新规则。

3.1 状态价值函数的定义

在策略 $π\pi$ 下，状态 $s$ 的价值函数 $Vπ(s)V^\pi(s)$ 定义为：

$Vπ(s)=Eπ[Gt∣st=s]=Eπ[rt+1+γrt+2+γ2rt+3+⋯∣st=s]V^\pi(s) = \mathbb{E}_\pi [ G_t | s_t = s ] = \mathbb{E}_\pi [ r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots | s_t = s ]$