【强化学习概念-时间差分TD】

最新推荐文章于 2025-05-18 01:56:58 发布

原创最新推荐文章于 2025-05-18 01:56:58 发布 · 1k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

【强化学习概念-时间差分TD】

在 Actor-Critic 算法中，时间差分（TD）误差对 Actor 的作用是引导策略改进。具体地说，TD 误差充当 策略梯度更新的权重，决定了策略改进的方向和幅度。

1. 策略梯度更新公式

在 Actor-Critic 中，Actor 网络优化的目标是最大化累计回报 $J(θ)J(\theta)$ ，其梯度为：
$\nabla_\theta J(\theta) = \mathbb{E}[\nabla_\theta \log \pi(a|s; \theta) \cdot A(s, a)]$
其中：

$π(a∣s;θ)\pi(a|s; \theta)$ ：策略函数，表示在状态 $s$ 下选择动作 $a$ 的概率。
$A (s, a)$ ：优势函数，表示在状态 $s$ 下采取动作 $a$ 的价值相对于平均策略的优势。
$∇θlog⁡π(a∣s;θ)\nabla_\theta \log \pi(a|s; \theta)$ ：策略的梯度，表示策略改变对动作选择的敏感程度。

关键：在实际实现中，TD 误差 $δ=r+γV(s′)−V(s)\delta = r + \gamma V(s') - V(s)$ 被用作优势函数的近似值：
$\approx \delta$

因此，策略梯度的更新公式可以写为：
$\nabla_\theta J(\theta) \approx \nabla_\theta \log \pi(a|s; \theta) \cdot \delta$

2. TD 误差在 Actor 中的作用

TD 误差 $δ\delta$ 的正负和大小直接决定了 Actor 的策略更新方向和强度：

正的 TD 误差 ( $δ>0\delta > 0$ )：
- 表示当前选择的动作 $a$ 比预期更好。
- 策略更新会增加在状态 $s$ 下选择动作 $a$ 的概率。
负的 TD 误差 ( $δ<0\delta < 0$ )：
- 表示当前选择的动作 $a$ 比预期更差。
- 策略更新会减少在状态 $s$ 下选择动作 $a$ 的概率。
TD 误差的绝对值大小 ( $∣δ∣|\delta|$ )：
- 决定了策略更新的幅度。
- 如果误差较大，说明当前策略的偏差较大，需要更大幅度的更新。

因此，TD 误差提供了一个动态反馈机制，用于告诉 Actor：

当前的策略选择是否合理。
策略需要多大程度的调整。

3. 具体过程

在 Actor 网络中：

生成动作：
- 给定状态 $s$ ，Actor 使用策略 $π(a∣s;θ)\pi(a|s; \theta)$ 生成动作 $a$ 。
与环境交互：
- 环境反馈即时奖励 $r$ 和下一状态 $s^{'}$ 。
计算 TD 误差：
- 使用 Critic 网络估计当前状态和下一状态的价值 $V (s)$ 和 $V (s^{'})$ ，计算 TD 误差：
  $\delta = r + \gamma V(s') - V(s)$
更新策略：
- 结合 TD 误差更新 Actor 的策略参数 $θ\theta$ ：
  $\theta \leftarrow \theta + \alpha \cdot \delta \cdot \nabla_\theta \log \pi(a|s; \theta)$
- 这里 $α\alpha$ 是学习率。