强化学习入门学习第二课 —— 基础方法：时序差分学习-优快云博客

方法	优点	缺点
动态规划（DP）	利用贝尔曼方程进行自举（Bootstrap）	需要完整的环境模型
蒙特卡洛（MC）	不需要环境模型，从经验中学习	必须等到回合结束才能更新

TD学习的出现就是为了取两者之长：

像MC一样，不需要环境模型
像DP一样，可以在线更新（不用等回合结束）

TD学习的核心思想

1. 价值函数的定义

首先，回顾状态价值函数的定义：

其中：

$\pi$ 是策略
$\gamma \in [0,1]$ 是折扣因子
$R_{t+k+1}$ 是在时刻 $t+k+1$ 获得的奖励

2. TD(0) 更新公式

TD学习的核心更新公式如下：

让我们拆解这个公式：

符号	含义
$\alpha$	学习率（步长），控制更新幅度
$R_{t+1}$	执行动作后获得的即时奖励
$\gamma V(S_{t+1})$	下一状态的折扣价值估计
$R_{t+1} + \gamma V(S_{t+1})$	TD目标（TD Target）
$R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$	TD误差（TD Error），记作 $\delta_t$

3. TD误差的直观理解

TD误差可以理解为"惊喜程度"：

$\delta_t > 0$ ：实际情况比预期好 😊
$\delta_t < 0$ ：实际情况比预期差 😢
$\delta_t = 0$ ：与预期一致 😐

TD学习流程图

经典TD算法：SARSA与Q-Learning

1. SARSA（State-Action-Reward-State-Action）

SARSA是一种同策略（On-policy） TD控制算法，直接学习动作价值函数 $Q(s,a)$ 。

更新公式：

算法伪代码：

初始化 Q(s, a) 为任意值
对于每个回合：
    初始化状态 S
    根据Q选择动作 A（如ε-greedy）
    
    重复（对于回合中的每一步）：
        执行动作 A，观测 R, S'
        根据Q选择动作 A'（如ε-greedy）
        Q(S, A) ← Q(S, A) + α[R + γQ(S', A') - Q(S, A)]
        S ← S'
        A ← A'
    直到 S 是终止状态

2. Q-Learning

Q-Learning是一种异策略（Off-policy） TD控制算法。

更新公式：

关键区别： Q-Learning使用 $\max_a Q(S_{t+1}, a)$ 而不是实际采取的动作的Q值。

算法伪代码：

初始化 Q(s, a) 为任意值
对于每个回合：
    初始化状态 S
    
    重复（对于回合中的每一步）：
        根据Q选择动作 A（如ε-greedy）
        执行动作 A，观测 R, S'
        Q(S, A) ← Q(S, A) + α[R + γ max_a Q(S', a) - Q(S, A)]
        S ← S'
    直到 S 是终止状态

3. SARSA vs Q-Learning 对比

【请在此处插入对比示意图】

📝 图示说明：请绘制一个"悬崖行走"（Cliff Walking）环境示意图，包含：

网格世界：4行×12列的网格
起点S：左下角，用绿色标注
终点G：右下角，用蓝色标注
悬崖区域：底部一行中间的10个格子，用红色/阴影标注，表示危险区域
两条路径：
- 路径1（安全路径）：用虚线箭头标注，沿着网格上方绕行，标注"SARSA倾向选择"
- 路径2（最优路径）：用实线箭头标注，紧贴悬崖边缘走，标注"Q-Learning倾向选择"
图例：说明两种算法的不同行为特点