强化学习-Chapter10-Actor-Critic Methods

原创

已于 2025-04-10 21:32:28 修改 · 660 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #人工智能 #学习

于 2025-04-08 21:06:06 首次发布

介绍

Actor-critic方法仍然是策略梯度方法。

它们强调结合策略梯度和基于价值的方法的结构。

什么是“actor”和“critic”？

在这里，“actor”指的是策略更新。之所以称为actor，是因为策略将被应用来采取行动。
在这里，“critic”指的是策略评估或价值估计。之所以称为critic，是因为它通过评估策略来批评策略。

最简单的actor-critic（QAC）

Actor - Critic 算法结合了策略梯度（Actor）和值函数估计（Critic）两种方法。Actor 负责根据当前策略选择动作，而 Critic 负责评估这些动作的价值，二者相互协作以优化策略。

策略梯度

标量度量 $J(θ)J(\theta)$ ，可以是 $vˉπ\bar{v}_\pi$ 或 $rˉπ\bar{r}_\pi$ 。
最大化 $J(θ)J(\theta)$ 的梯度上升算法是
$\begin{align*} \theta_{t+1} &= \theta_t + \alpha \nabla_\theta J(\theta_t) \\ &= \theta_t + \alpha E_{S \sim \eta, A \sim \pi} \left[ \nabla_\theta \ln \pi(A|S, \theta_t) q_\pi(S, A) \right] \end{align*}$
随机梯度上升算法是
$\theta_{t+1} = \theta_t + \alpha \nabla_\theta \ln \pi(a_t|s_t, \theta_t) q_t(s_t, a_t)$

我们可以从这个算法中看到“actor”和“critic”：

这个算法对应于actor！
估计 $q_t(s, a)$ 的算法对应于critic！

如何获取 $q_t(s_t, a_t)$ ？

到目前为止，我们研究了两种估计动作值的方法：

蒙特卡洛学习：如果使用MC，则相应的算法称为REINFORCE或蒙特卡洛策略梯度。
- 我们在上次讲座中介绍过。
时间差分学习：如果使用TD，则这种算法通常称为actor-critic。
- 我们将在本文介绍。

QAC

目标：通过最大化 $J(θ)J(\theta)$ 寻找最优策略。
- 这里的 $J(θ)J(\theta)$ 通常是策略 $π(a∣s,θ)\pi(a|s, \theta)$ 的长期累积奖励的期望，它衡量了策略 $θ\theta$ 的优劣程度。
- 算法的核心就是不断调整策略参数 $θ\theta$ ，使得 $J(θ)J(\theta)$ 达到最大值。
在每个episode中的时间步 $t$ ，执行以下操作：
- 生成 $a_t$ ，遵循 $π(a∣st,θt)\pi(a|s_t, \theta_t)$ ，观察 $r_{t+1}, s_{t+1}$ ，然后生成 $a_{t+1}$ ，遵循 $π(a∣st+1,θt)\pi(a|s_{t+1}, \theta_t)$
  - 在每个时间步 $t$ ，首先根据当前的策略 $π(a∣st,θt)\pi(a|s_t, \theta_t)$ 生成动作 $a_t$ 并执行该动作
  - 执行动作后，环境会反馈一个奖励 $r_{t + 1}$ 和下一个状态 $s_{t + 1}$ 。接着，再根据当前策略 $π(a∣st+1,θt)\pi(a|s_{t + 1}, \theta_t)$ 生成下一个动作 $a_{t + 1}$
  - 这一步骤是智能体与环境进行交互的过程，通过不断地选择动作并观察环境的反馈，智能体可以逐渐了解不同动作在不同状态下的效果
- Critic（价值更新）：
  $w_{t+1} = w_t + \alpha_w \left[ r_{t+1} + \gamma q(s_{t+1}, a_{t+1}, w_t) - q(s_t, a_t, w_t) \right] \nabla_w q(s_t, a_t, w_t)$
  - Critic 的主要任务是估计状态 - 动作对的价值，即 $q (s, a, w)$ ，其中 $w$ 是价值函数的参数
  - 公式解释：
    - $rt+1+γq(st+1,at+1,wt)r_{t + 1} + \gamma q(s_{t + 1}, a_{t + 1}, w_t)$ 是目标值，也称为 TD 目标（Temporal Difference target）。其中， $r_{t + 1}$ 是当前时间步获得的即时奖励， $γ\gamma$ 是折扣因子（ $\leq \gamma \leq 1$ ），用于衡量未来奖励的重要性， $q(s_{t + 1}, a_{t + 1}, w_t)$ 是下一个状态 - 动作对的估计价值。
    - $q(s_t, a_t, w_t)$ 是当前状态 - 动作对的估计价值。
    - $rt+1+γq(st+1,at+1,wt)−q(st,at,wt)r_{t + 1} + \gamma q(s_{t + 1}, a_{t + 1}, w_t) - q(s_t, a_t, w_t)$ 是 TD 误差（Temporal Difference error），它衡量了当前估计价值与目标值之间的差异。
    - $αw\alpha_w$ 是 Critic 的学习率，控制着每次更新时参数 $w$ 的调整幅度。
    - $∇wq(st,at,wt)\nabla_w q(s_t, a_t, w_t)$ 是价值函数 $q(s_t, a_t, w)$ 关于参数 $w$ 的梯度，用于指示参数更新的方向。
  - 更新目的：通过不断地更新参数 $w$ ，使得价值函数 $q (s, a, w)$ 能够更准确地估计状态 - 动作对的价值。
- Actor（策略更新）：
  $\theta_{t+1} = \theta_t + \alpha_\theta \nabla_\theta \ln \pi(a_t|s_t, \theta_t) q(s_t, a_t, w_{t+1})$
  - Actor 的任务是根据 Critic 提供的价值信息来调整策略参数 $θ\theta$
  - 公式解释：
    - $∇θln⁡π(at∣st,θt)\nabla_\theta \ln \pi(a_t|s_t, \theta_t)$ 是策略 $π(at∣st,θ)\pi(a_t|s_t, \theta)$ 的对数似然关于参数 $θ\theta$ 的梯度。根据策略梯度定理，这个梯度可以用于指导策略的更新方向。
    - $q(s_t, a_t, w_{t + 1})$ 是当前状态 - 动作对的估计价值，由更新后的 Critic 提供。它作为一个权重，用于调整策略更新的幅度。
      - 如果 $q(s_t, a_t, w_{t + 1})$ 较大，说明当前动作在该状态下是一个好的选择，应该增加选择该动作的概率；
      - 反之，如果 $q(s_t, a_t, w_{t + 1})$ 较小，说明当前动作不是一个好的选择，应该降低选择该动作的概率。
  - $αθ\alpha_\theta$ 是 Actor 的学习率，控制着每次更新时参数 $θ\theta$ 的调整幅度。
- 更新目的：通过不断地更新参数 $θ\theta$ ，使得策略 $π(a∣s,θ)\pi(a|s, \theta)$ 能够根据 Critic 的评估结果进行调整，从而逐渐趋向于最优策略。

注意：

Critic对应于“SARSA+值函数近似”，主要估计状态 - 动作对的价值。
Actor对应于策略更新算法。
该算法是on-policy（为什么PG是on-policy？）。
- 由于策略是随机的，不需要使用类似 $ε\varepsilon$ -贪婪的技术。
这种特定的actor-critic算法有时称为Q Actor-Critic（QAC）。
尽管简单，但该算法揭示了actor-critic方法的核心思想。它可以扩展以产生许多其他算法，如稍后所示。

Advantage actor-critic (A2C)

接下来，我们延伸QAC到A2C，它的核心思想是引入一个基准来减少方差。

基线不变性

性质：策略梯度对额外的基准是不变的：
$\begin{align*} \nabla_\theta J(\theta) &= E_{S \sim \eta, A \sim \pi} \left[ \nabla_\theta \ln \pi(A|S, \theta_t) q_\pi(S, A) \right] \\ &= E_{S \sim \eta, A \sim \pi} \left[ \nabla_\theta \ln \pi(A|S, \theta_t) \left(q_\pi(S, A) - b(S)\right) \right] \end{align*}$

以下对策略梯度的基线不变性进行详细解释：

相关符号与概念说明
- $∇θJ(θ)\nabla_\theta J(\theta)$ ：表示目标函数 $J(θ)J(\theta)$ 关于策略参数 $θ\theta$ 的梯度。在强化学习中， $J(θ)J(\theta)$ 通常代表策略 $π(A∣S,θ)\pi(A|S, \theta)$ 的长期期望回报，也就是衡量策略好坏的一个指标。我们的目标是通过调整参数 $θ\theta$ 来最大化 $J(θ)J(\theta)$ 。
- $ES∼η,A∼πE_{S \sim \eta, A \sim \pi}$ ：这是一个期望运算符。 $\sim \eta$ 表示状态 $S$ 是从分布 $η\eta$ 中采样得到的， $η\eta$ 通常是环境的状态分布； $\sim \pi$ 表示动作 $A$ 是根据策略 $π(A∣S,θ)\pi(A|S, \theta)$ 采样得到的。整个期望是对从状态分布 $η\eta$ 中采样的状态 $S$ 以及根据策略 $π\pi$ 采样的动作 $A$ 进行的。
- $∇θln⁡π(A∣S,θt)\nabla_\theta \ln \pi(A|S, \theta_t)$ ：是策略 $π(A∣S,θ)\pi(A|S, \theta)$ 的对数似然关于参数 $θ\theta$ 的梯度在 $θ=θt\theta = \theta_t$ 处的值。它在策略梯度算法中用于指导策略参数的更新方向，基于对数似然函数求导得到，这样做有助于计算和优化。
- $qπ(S,A)q_\pi(S, A)$ ：是状态 - 动作价值函数，它表示在状态 $S$ 下采取动作 $A$ 后，遵循策略 $π\pi$ 所获得的长期期望回报。
- $b (S)$ ：是一个额外引入的基准函数，它是状态 $S$ 的标量函数，即对于每个状态 $S$ ， $b (S)$ 都对应一个标量值。
等式推导过程分析
- 第一个等式： $∇θJ(θ)=ES∼η,A∼π[∇θln⁡π(A∣S,θt)qπ(S,A)]\nabla_\theta J(\theta) = E_{S \sim \eta, A \sim \pi} \left[ \nabla_\theta \ln \pi(A|S, \theta_t) q_\pi(S, A) \right]$
  - 是策略梯度定理的一种常见形式。
  - 它表明策略的梯度可以通过对策略的对数似然梯度与状态 - 动作价值函数的乘积求期望得到。
  - 直观理解就是，通过这种方式可以根据动作的价值来调整策略，使得高价值的动作对应的策略参数朝着增加该动作选择概率的方向更新。
- 第二个等式：
  - 要证明 $ES∼η,A∼π[∇θln⁡π(A∣S,θt)qπ(S,A)]=ES∼η,A∼π[∇θln⁡π(A∣S,θt)(qπ(S,A)−b(S))]E_{S \sim \eta, A \sim \pi} \left[ \nabla_\theta \ln \pi(A|S, \theta_t) q_\pi(S, A) \right] = E_{S \sim \eta, A \sim \pi} \left[ \nabla_\theta \ln \pi(A|S, \theta_t) \left(q_\pi(S, A) - b(S)\right) \right]$ 我们对右边的式子进行展开：
    $\begin{align*} &E_{S \sim \eta, A \sim \pi} \left[ \nabla_\theta \ln \pi(A|S, \theta_t) \left(q_\pi(S, A) - b(S)\right) \right]\\ =&E_{S \sim \eta, A \sim \pi} \left[ \nabla_\theta \ln \pi(A|S, \theta_t) q_\pi(S, A) - \nabla_\theta \ln \pi(A|S, \theta_t) b(S) \right]\\ =&E_{S \sim \eta, A \sim \pi} \left[ \nabla_\theta \ln \pi(A|S, \theta_t) q_\pi(S, A) \right] - E_{S \sim \eta, A \sim \pi} \left[ \nabla_\theta \ln \pi(A|S, \theta_t) b(S) \right] \end{align*}$