【强化学习】PPO算法

原创已于 2025-10-12 21:48:15 修改 · 410 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #算法 #语言模型

于 2025-10-12 21:47:42 首次发布

强化学习专栏收录该内容

1 篇文章

订阅专栏

📢本文是博主记录的学习摘录和笔记📝，若有不当之处，恳请各位小伙伴及时联系博主进行改正🙏，还望大家多多谅解与包容！🤝😊

PPO算法

文章目录

算法介绍

PPO算法（近端策略优化，Proximal Policy Optimization是一种在强化学习领域广泛应用的策略梯度方法，由OpenAI于2017年提出 Proximal Policy Optimization Algorithms。它通过限制策略更新的幅度，解决了传统策略梯度方法中训练不稳定的问题，在多个领域展现出卓越的性能。

背景

在强化学习中，策略梯度方法（如REINFORCE、A2C、TRPO）通过直接优化策略参数来最大化期望回报。然而，这些方法存在一些问题：

更新步长难以控制：如果策略更新幅度过大，可能导致策略崩溃；更新过小则训练缓慢。
样本效率低：传统策略梯度通常每个样本只能使用一次。
实现复杂：例如TRPO（Trust Region Policy Optimization）虽然能保证策略更新的稳定性，但需要二阶优化和复杂的约束处理，实现复杂，计算开销大。

PPO 正是为了解决这些问题而设计的：PPO算法保留了TRPO的优点（即稳定、可靠的策略更新），同时简化实现、提高计算效率。

核心思想

在强化学习中，策略梯度方法的目标函数的梯度公式如下：
$\nabla_\theta J(\theta) = \mathbb{E}_{S \sim \eta,\, A \sim \pi(S, \theta)} \left[ \nabla_\theta \ln \pi(A|S, \theta) \, (q_\pi(S, A)-v_\pi(S)) \right]$
目标函数可以写成

$L^{\text{PG}}(\theta) = \mathbb{E}_{(s_t, a_t) \sim \pi_\theta} \left[ \log \pi_\theta(a_t \mid s_t) \, A_t \right]$
在 TRPO 中，目标函数在策略更新大小约束下被最大化，即
$\mathop{\text{maximize}}\limits_{\theta} \quad \hat{\mathbb{E}}_t \left[ \frac{\pi_\theta(a_t \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t \mid s_t)} \hat{A}_t \right]$

$\text{subject to} \quad \hat{\mathbb{E}}_t \left[ \mathrm{KL} \left[ \pi_{\theta_{\text{old}}}(\cdot \mid s_t), \pi_\theta(\cdot \mid s_t) \right] \right] \leq \delta.$

其中：

$r_t(\theta) = \frac{\pi_\theta(a_t \mid s_t)}{\pi_{\text{old}}(a_t \mid s_t)}$ 称为重要性采样比率

当 $\pi_\theta$ 与 $\pi_{old}$ 差异较大时， $r_t(\theta)$ 可能非常大或非常小，导致梯度估计方差极大，甚至使策略崩溃。

为了解决上述问题，PPO 提出了 裁剪替代目标函数（Clipped Surrogate Objective）：
$L^{\text{CLIP}}(\theta) = \mathbb{E}_t \left[ \min \left( r_t(\theta) \hat{A}_t ,\, \text{clip}(r_t(\theta),\, 1-\epsilon,\, 1+\epsilon) \hat{A}_t \right) \right]$
其中：
$\epsilon > 0$ 是一个小的超参数（通常取 0.2）
$\text{clip}(x, a, b)$ 将 $x$ 限制在区间 $ [a, b] $ 内

PPO 的另一种方法是使用 KL 散度惩罚，但在实验中发现性能不如 CLIP ，实验也更复杂。

PPO 的目标函数不是简单地使用裁剪后的比率，而是取原始比率目标和裁剪后目标的较小值。这是为了保守更新）。

当 $A_t >0$ （动作比平均好）：
- 我们希望增大 $\pi_\theta(a_t|s_t)$ ，即让 $r_t(\theta) > 1$
- 但如果 $r_t(\theta) > 1 + \epsilon$ ，说明更新太大，此时裁剪后的值为 $\epsilon)A_t$
- 取 min 后，目标函数值被限制，防止过度鼓励该动作
当 $A_t < 0$ （动作比平均差）：
- 我们希望减小 $\pi_\theta(a_t|s_t)$ ，即让 $r_t(\theta) < 1$
- 但如果 $r_t(\theta) < 1 - \epsilon$ ，说明策略变化太大，裁剪后为 $\epsilon)A_t$
- 注意：因为 $A_t < 0$ ， $\epsilon)A_t < r_t(\theta)A_t$ ， min 会选更小的，限制策略下降的幅度

完整的 PPO 目标函数：
$L_t(\theta)=\mathbb{E}_t \left[ L^{\text{CLIP}}_t(\theta)-c_1L^{\text{VF}}_t(\theta)+c_2S[\pi_\theta](s_t) \right]$
其中：

$L^{\text{VF}}_t(\theta)=\mathbb{E}_t\left[(V_\theta(s_t)-V_t^{\text{target}})^2\right]$ ：价值函数的均方误差损失；
$S[\pi_\theta](s_t)=\mathbb{E}_t\left[-\sum_a\pi_\theta(a|s_t)\log\pi_\theta(a|s_t)\right]$ ：策略熵，用于鼓励探索；
$c_1,c_2$ 是超参数

流程

初始化
- 初始化策略网络（Policy Network） $\pi_\theta$ （参数为 $\theta$ ）
- 初始化价值网络（Value Network） $V_\phi$ （参数为 $\phi$ ）
- 设置超参数：折扣因子 $\gamma$ 、GAE 参数 $\lambda$ 、裁剪范围 $\varepsilon$ 、学习率、训练轮数 $K$ 、每个批次的轨迹长度 $T$ 等
数据收集
在当前策略 $\pi_\theta$ 下，与环境交互收集经验数据：
- 对于多个并行智能体，执行策略 $\pi_\theta$ 生成轨迹：
  - 对于时间步 $t = 0$ 到 $T - 1$ ：
    - 根据当前状态 $s_t$ ，采样动作 $a_t\sim\pi_\theta(a|s_t)$
    - 执行动作 $a_t$ ，获得奖励 $r_t$ 和下一状态 $s_{t+1}$
    - 存储 $s_t,a_t,r_t,s_{t+1})$ 等信息
计算优势函数（Advantage Estimation）
使用收集到的轨迹数据，估计每个时间步的优势函数 $A_t$ ，常用 GAE（Generalized Advantage Estimation）：
- 首先用价值网络 $V_\phi(s)$ 估计状态价值
- 计算 TD 残差： $\delta_t=r_t+\gamma V_\phi(s_{t+1})-V_\phi(s_t)$
- $A_t=\delta_t+(\gamma\lambda)\delta_{t+1}+(\gamma\lambda)^2\delta_{t+2}+\dots+(\gamma\lambda)^{T-t-1}\delta_{T-1}$
构建 PPO 目标函数（Clipped Surrogate Objective）
对每个样本 $s_t,a_t)$ ，计算重要性采样比率
计算PPO-Clip 的目标函数，再加上价值函数损失和熵奖励。
优化目标函数。

优势

训练稳定性高

这是 PPO 最核心的优势。在 PPO 出现之前，策略梯度算法经常面临一个两难选择：

学习率太小：策略更新缓慢，训练耗时。
学习率太大：策略更新步子迈得太大，可能导致策略性能突然崩溃，且难以恢复。

PPO 通过其裁剪机制或 KL 散度惩罚完美地解决了这个问题。它不直接限制学习率，而是限制新旧策略的变化幅度。

实现简单

PPO 的前身是 TRPO（Trust Region Policy Optimization）。TRPO 的思想与 PPO 类似，也是为了限制策略更新的幅度，但它使用了一个复杂的、涉及二阶导数和共轭梯度法的约束来保证更新在“信任区域”内。这使得 TRPO 的实现非常困难且计算成本高昂。

相比之下，PPO-Clip 的核心思想——一个简单的 min 和 clip 操作——可以用几行代码轻松实现。它将复杂的约束问题转化为了一个易于优化的损失函数，使得算法既保留了 TRPO 的稳定性思想，又具有简洁性。

良好的样本效率（相对 on-policy 算法）

虽然 PPO 本质上仍是 on-policy 算法（依赖当前策略生成数据），但它允许对同一批数据进行多次 epoch 更新，提高了数据利用率。

不足

on-policy

PPO 与 off-policy 算法相比，样本效率低下，不能无限重用旧数据，每次策略更新后需重新与环境交互收集数据。

超参数敏感

虽然 PPO 的裁剪机制使其对学习率不那么敏感，但它引入了新的关键超参数，并且整体性能依然依赖于超参数的精心调整：

裁剪范围 $\epsilon$ ：这是最重要的超参数之一。 $\epsilon$ 太小，策略更新会非常缓慢； $\epsilon$ 太大，则失去了裁剪的意义，可能变得不稳定。
价值损失系数 $c_1$ 和熵系数 $c_2$ ：这两个系数平衡了策略改进、价值评估和探索三者的关系。如果权重设置不当，训练可能会出现各种问题（如不收敛或策略过早确定）。
GAE 参数 $\lambda$ ：影响优势函数的计算，控制着偏差和方差的权衡。