强化学习-TRPO算法详解

原创

已于 2025-04-12 14:25:35 修改 · 2.1k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #人工智能 #机器学习 #学习

于 2025-04-12 14:19:39 首次发布

TRPO（Trust Region Policy Optimization）算法详解

TRPO（信任区域策略优化）是一种基于策略梯度的强化学习算法，由John Schulman等人在2015年提出。其核心思想是通过限制策略更新的幅度，确保新策略的性能不会显著下降，从而提升训练稳定性。以下是TRPO的详细介绍：

1. 背景与动机

传统策略梯度的问题：策略梯度方法直接优化策略参数，但步长选择敏感。过大的更新可能导致策略性能骤降，而过小的步长则收敛缓慢。
信任区域的引入：TRPO提出在策略更新时定义一个“信任区域”，确保新策略与旧策略的差异在可控范围内。数学上通过KL散度约束实现。

2. 策略优化的基本目标

在强化学习中，策略优化的目标是找到一个策略 $πθ(a∣s)\pi_\theta(a|s)$ ，使得期望累积回报最大化：
$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^\infty \gamma^t r(s_t, a_t) \right],$
其中 $τ\tau$ 是轨迹， $γ\gamma$ 是折扣因子。直接优化 $J(θ)J(\theta)$ 的梯度为：
$\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^\infty \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot Q^{\pi_\theta}(s_t, a_t) \right]$
推导过程如下：

从定义出发
- 首先，目标函数 $J(θ)=Eτ∼πθ[∑t=0∞γtrt]J(\theta)=\mathbb{E}_{\tau\sim\pi_{\theta}}[\sum_{t = 0}^{\infty}\gamma^{t}r_{t}]$ ，这里 $)\tau=(s_{0},a_{0},r_{0},s_{1},a_{1},r_{1},\cdots)$ 是一个轨迹， $γ\gamma$ 是折扣因子。期望是对所有可能的轨迹 $τ\tau$ 按照策略 $πθ\pi_{\theta}$ 进行计算的。
- 根据期望的定义， $J(θ)=∫τπθ(τ)(∑t=0∞γtrt)dτJ(\theta)=\int_{\tau}\pi_{\theta}(\tau)(\sum_{t = 0}^{\infty}\gamma^{t}r_{t})d\tau$ ，其中 $πθ(τ)=∏t=0∞πθ(at∣st)\pi_{\theta}(\tau)=\prod_{t = 0}^{\infty}\pi_{\theta}(a_{t}|s_{t})$ 是轨迹 $τ\tau$ 出现的概率。
应用对数求导技巧
- 为了求 $J(θ)J(\theta)$ 关于 $θ\theta$ 的梯度，我们对 $J(θ)J(\theta)$ 使用对数求导技巧。
  - 设 $p(θ)=πθ(τ)p(\theta)=\pi_{\theta}(\tau)$ 和 $g(θ)=∑t=0∞γtrtg(\theta)=\sum_{t = 0}^{\infty}\gamma^{t}r_{t}$
  - 那么 $J(θ)=E[g(θ)]=∫p(θ)g(θ)dθJ(\theta)=\mathbb{E}[g(\theta)]=\int p(\theta)g(\theta)d\theta$ 。
- 根据对数求导公式 $∇θlog⁡p(θ)=∇θp(θ)p(θ)\nabla_{\theta}\log p(\theta)=\frac{\nabla_{\theta}p(\theta)}{p(\theta)}$ ，对 $J(θ)J(\theta)$ 求导可得：
  $\begin{align*} \nabla_{\theta}J(\theta) &= \int\nabla_{\theta}\left[\pi_{\theta}(\tau)\left(\sum_{t = 0}^{\infty}\gamma^{t}r_{t}\right)\right]d\tau \\ &= \int\left[\nabla_{\theta}\pi_{\theta}(\tau)\left(\sum_{t = 0}^{\infty}\gamma^{t}r_{t}\right) + \pi_{\theta}(\tau)\nabla_{\theta}\left(\sum_{t = 0}^{\infty}\gamma^{t}r_{t}\right)\right]d\tau \end{align*}$
- 注意到 $∇θ(∑t=0∞γtrt)=0\nabla_{\theta}(\sum_{t = 0}^{\infty}\gamma^{t}r_{t}) = 0$ ，因为 $r_{t}$ 不依赖于 $θ\theta$ 。
- 对于 $∇θπθ(τ)\nabla_{\theta}\pi_{\theta}(\tau)$ ，由于 $πθ(τ)=∏t=0∞πθ(at∣st)\pi_{\theta}(\tau)=\prod_{t = 0}^{\infty}\pi_{\theta}(a_{t}|s_{t})$ ，根据复合函数求导法则和对数求导技巧， $∇θπθ(τ)=πθ(τ)∑t=0∞∇θπθ(at∣st)πθ(at∣st)\nabla_{\theta}\pi_{\theta}(\tau)=\pi_{\theta}(\tau)\sum_{t = 0}^{\infty}\frac{\nabla_{\theta}\pi_{\theta}(a_{t}|s_{t})}{\pi_{\theta}(a_{t}|s_{t})}$ 即 $∇θπθ(τ)=πθ(τ)∑t=0∞∇θlog⁡πθ(at∣st)\nabla_{\theta}\pi_{\theta}(\tau)=\pi_{\theta}(\tau)\sum_{t = 0}^{\infty}\nabla_{\theta}\log\pi_{\theta}(a_{t}|s_{t})$
引入动作 - 价值函数 $Qπ(st,at)Q^{\pi}(s_{t},a_{t})$
- 把 $∇θπθ(τ)=πθ(τ)∑t=0∞∇θlog⁡πθ(at∣st)\nabla_{\theta}\pi_{\theta}(\tau)=\pi_{\theta}(\tau)\sum_{t = 0}^{\infty}\nabla_{\theta}\log\pi_{\theta}(a_{t}|s_{t})$ 代入 $∇θJ(θ)\nabla_{\theta}J(\theta)$ 的表达式中，得到：
  $∇θJ(θ)=∫πθ(τ)∑t=0∞∇θlog⁡πθ(at∣st)(∑t=0∞γtrt)dτ\nabla_{\theta}J(\theta)=\int\pi_{\theta}(\tau)\sum_{t = 0}^{\infty}\nabla_{\theta}\log\pi_{\theta}(a_{t}|s_{t})(\sum_{t = 0}^{\infty}\gamma^{t}r_{t})d\tau$