强化学习-PPO算法详解

最新推荐文章于 2025-06-05 10:59:16 发布

Rsbs

最新推荐文章于 2025-06-05 10:59:16 发布

阅读量2.8k

点赞数 42

CC 4.0 BY-SA版权

文章标签：算法

本文链接：https://blog.youkuaiyun.com/Rsbstep/article/details/147165003

近端策略优化（Proximal Policy Optimization, PPO）是强化学习中的一种高效策略优化算法，由OpenAI于2017年提出。其核心目标是提升训练稳定性和样本效率，尤其适用于复杂环境下的连续控制任务。

1. 背景与核心思想

问题背景：传统策略梯度方法（如REINFORCE、Actor-Critic）在更新策略时容易因步长过大导致训练不稳定。TRPO（Trust Region Policy Optimization）通过约束KL散度限制更新幅度，但计算复杂。
PPO的创新：引入剪切（Clipping）或自适应KL惩罚机制，简化优化过程，仅需一阶梯度，兼顾稳定性和效率。

2. 算法原理

PPO算法基础组件

策略网络（Actor）：它是一个神经网络，用于根据环境状态输出动作的概率分布。
- 例如，在一个简单的机器人控制任务中，策略网络可以根据机器人的传感器信息（状态）输出各个动作（如前进、后退、左转、右转等）的概率。
价值网络（Critic）：同样是一个神经网络，用于估计给定状态的价值。价值网络可以帮助策略网络更好地理解哪些状态是更有价值的，从而引导策略网络朝着更优的方向进行更新。
- 例如，在一个游戏环境中，价值网络可以评估游戏中的某个局面（状态）对于最终胜利的价值。
优势函数（Advantage Function）：优势函数 $A (s, a)$ 定义为动作 - 价值函数 $Q (s, a)$ 与状态价值函数 $V (s)$ 的差值，即 $A (s, a) = Q (s, a) - V (s)$ 。
- 它衡量了在某个状态下采取某个动作相对于平均动作价值的优势。
- 例如，在一个棋类游戏中，如果某个动作能够比平均水平更有效地增加获胜的机会，那么这个动作的优势函数值就会比较高。

目标函数设计

PPO的核心是改进策略更新的目标函数，确保新旧策略差异可控。主要形式包括：

PPO-Clip（剪切法）：

目标函数：
$LCLIP(θ)=E^t[min⁡(rt(θ)A^t,clip(rt(θ),1−ϵ,1+ϵ)A^t)] L^{CLIP}(\theta)=\hat{E}_t[\min(r_t(\theta)\hat{A}_t,clip(r_t(\theta),1 - \epsilon,1+\epsilon)\hat{A}_t)]$
- 其中 $θ\theta$ 是策略网络的参数
- $E^t\hat{E}_t$ 表示对时间步t的经验样本的期望（通常是通过从经验回放缓冲区或多个收集的轨迹中采样得到）
- $rt(θ)=πθ(at∣st)πθold(at∣st)r_t(\theta)=\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$ 是概率比，它表示新策略 $πθ\pi_{\theta}$ 和旧策略 $πθold\pi_{\theta_{old}}$ 在状态 $s_t$ 下选择动作 $a_t$ 的概率之比
- $A^t\hat{A}_t$ 是估计的优势函数
- $clip(rt(θ),1−ϵ,1+ϵ)clip(r_t(\theta),1 - \epsilon,1+\epsilon)$ ：这是一个剪辑（clipping）操作。
  - 它将 $rt(θ)r_t(\theta)$ 的值限制在 $\epsilon,1+\epsilon]$ 这个区间内。
  - $ϵ\epsilon$ 是一个超参数，通常取值在 $0.1 - 0.3$ 之间。它用于控制策略更新的幅度。
推导过程：
- 策略梯度定理告诉我们，策略梯度 $∇θJ(θ)≈E^[∇θlog⁡πθ(a∣s)Q(s,a)]\nabla_{\theta}J(\theta)\approx\hat{E}[\nabla_{\theta}\log\pi_{\theta}(a|s)Q(s,a)]$ ，其中 $J(θ)J(\theta)$ 是策略的目标函数（通常是累计奖励的期望）。
- 在 PPO - clip 中，我们希望限制新策略和旧策略之间的差异，以避免过度更新。
  - $rt(θ)r_t(\theta)$ 这个概率比可以衡量策略的变化程度。
  - 当 $rt(θ)r_t(\theta)$ 在 $\epsilon,1+\epsilon)$ 范围内时，目标函数就是 $rt(θ)A^tr_t(\theta)\hat{A}_t$ ，这相当于正常的策略梯度更新；
  - 当 $rt(θ)r_t(\theta)$ 超出这个范围时，就将其剪辑（clip）到 $\epsilon$ 或 $1+ϵ1+\epsilon$ ，这样就限制了策略更新的幅度。
  - 通过这种方式，PPO - clip 既可以利用新策略可能带来的优势（当策略变化合理时），又可以防止策略更新幅度过大导致的不稳定。

PPO-KL（自适应KL惩罚）：

目标函数：
$LKL(θ)=E^t[πθ(at∣st)πθold(at∣st)A^t−β⋅KL[πθold,πθ]] L^{KL}(\theta) = \mathbb{\hat{E}}_t \left[ \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)} \hat{A}_t - \beta \cdot \text{KL}[\pi_{\theta_{\text{old}}}, \pi_\theta] \right]$
动态调整KL惩罚系数 $β\beta$ ，以维持KL散度接近目标值。
推导：
- 与 PPO - clip 类似，我们还是基于策略梯度定理。
- 不过这里不是直接剪辑概率比，而是通过惩罚新旧策略之间的 KL 散度来控制策略更新幅度。
- 当新旧策略差异较大（KL 散度较大）时，惩罚项 $βKL[πθold,πθ]\beta KL[\pi_{\theta_{old}},\pi_{\theta}]$ 就会增大，从而减少目标函数的值，使得策略更新不至于过于激进。

算法流程

收集样本：通过与环境进行交互，使用当前的策略网络（ $πθ\pi_{\theta}$ ）收集一系列的状态 - 动作 - 奖励 - 下一个状态（ $s_t,a_t,r_t,s_{t + 1}$ ）的样本轨迹。这可以通过让智能体在环境中运行多个回合（episodes）来实现。
计算优势函数和目标函数值：
- 利用收集到的样本和价值网络来计算优势函数 $A^t\hat{A}_t$ 。可以使用广义优势估计（GAE）等方法来更准确地估计优势函数。
- 根据选择的PPO目标函数（PPO - clip或PPO - penalty），计算目标函数 $LCLIP(θ)L^{CLIP}(\theta)$ 或 $LKLPEN(θ)L^{KLPEN}(\theta)$ 的值。
更新策略网络和价值网络：
- 使用优化算法（如Adam等）来更新策略网络的参数 $θ\theta$ ，以最大化目标函数。
- 同时，也可以更新价值网络的参数，以提高价值估计的准确性。通常可以使用均方误差（MSE）等损失函数来更新价值网络，使其更好地拟合真实的状态价值。
重复上述过程：不断地收集样本、计算目标函数和更新网络，直到策略收敛或者达到预设的训练轮数。

近端策略优化（PPO - clip）伪代码

目标：通过最大化 $LCLIP(θ)L^{CLIP}(\theta)$ 寻找最优策略，同时优化价值函数 $V (s, w)$ 。
在每一集的时间步 $t$ ，执行：
- 采样动作：
  - 按 $π(a∣st,θt)\pi(a | s_t, \theta_t)$ 生成 $a_t$ ，然后观察 $r_{t + 1}, s_{t + 1}$ 。
- 计算优势函数：
  - 广义优势估计（GAE）用于计算优势函数 $A^t\hat{A}_t$ 。首先，定义 TD 误差 $δt=rt+1+γV(st+1,wt)−V(st,wt)\delta_t = r_{t+1}+\gamma V(s_{t + 1},w_t)-V(s_t,w_t)$ 。
  - 优势函数 $A^t=∑l=0∞(γλ)lδt+l\hat{A}_t=\sum_{l = 0}^{\infty}(\gamma\lambda)^l\delta_{t + l}$ ，其中 $γ\gamma$ 是折扣因子， $λ\lambda$ 是 GAE 中的参数。
  - 该优势函数衡量了在状态 $s_t$ 下采取动作 $a_t$ 相对于平均动作价值的优势，反映了动作对长期收益的贡献。
- 更新价值网络（评论家）：
  - 计算目标值 $V^t=rt+1+γV(st+1,wt)\hat{V}_{t}=r_{t + 1}+\gamma V(s_{t+1},w_t)$ 。
  - 使用均方误差损失 $LV(w)=Et[(V(st,w)−V^t)2]L_V(w)=\mathbb{E}_t[(V(s_t,w)-\hat{V}_{t})^2]$ 来更新价值网络参数 $w$ 。
  - 通过梯度下降法更新参数： $wt+1=wt−αw∇wLV(w)w_{t + 1}=w_t-\alpha_{w}\nabla_{w}L_V(w)$ ，其中 $αw\alpha_{w}$ 是价值网络的学习率。
- 更新策略网络（演员）：
  - 计算概率比 $rt(θ)=πθ(at∣st)πθold(at∣st)r_t(\theta)=\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$ ，其中 $πθold\pi_{\theta_{old}}$ 是旧策略。
  - 计算 PPO - clip 目标函数：
    $LCLIP(θ)=E^t[min⁡(rt(θ)A^t,clip(rt(θ),1−ϵ,1+ϵ)A^t)] L^{CLIP}(\theta)=\hat{E}_t[\min(r_t(\theta)\hat{A}_t,\text{clip}(r_t(\theta),1 - \epsilon,1+\epsilon)\hat{A}_t)]$
  - 这里 $ϵ\epsilon$ 是剪辑超参数，用于限制策略更新的幅度。
  - 通过梯度上升法更新策略网络参数 $θ\theta$ ： $θt+1=θt+αθ∇θLCLIP(θ)\theta_{t + 1}=\theta_t+\alpha_{\theta}\nabla_{\theta}L^{CLIP}(\theta)$ ，其中 $αθ\alpha_{\theta}$ 是策略网络的学习率。
  - 该更新方式使得策略在更新时既考虑了优势函数的引导，又通过剪辑操作限制了策略更新幅度过大，保证了学习的稳定性。
- 更新旧策略：
  - 在完成一轮策略更新后，将更新后的策略 $πθ\pi_{\theta}$ 赋值给旧策略 $πθold\pi_{\theta_{old}}$ ，即 $θold=θ\theta_{old}=\theta$ ，为下一轮更新做准备。

3. 实现细节

Actor-Critic架构：
- Actor（策略网络）：输出动作概率分布，优化剪切目标函数。
- Critic（价值网络）：估计状态价值 $V (s)$ ，优化均方误差损失： $LVF=Et[(Vθ(st)−Vtarget)2]L^{VF} = \mathbb{E}_t[(V_\theta(s_t) - V_{\text{target}})^2]$ 。
超参数选择：
- 剪切范围 $ϵ\epsilon$ ：通常设为0.1~0.3。
- 学习率：策略网络和值网络可分开设置。
- 并行环境：通过多个环境并行采样加速数据收集。
数据重用：每个批次的样本可多次用于更新（如3~10个epoch），提升数据利用率。

4. 与其他算法的对比

算法	核心机制	计算复杂度	稳定性
TRPO	约束KL散度（二阶优化）	高（需Hessian）	高
PPO	剪切或自适应KL惩罚（一阶优化）	低	高
A2C/A3C	异步梯度更新	中等	中等
DQN	值函数近似 + 经验回放	低	中等

5. 优点与局限性

优点：
- 实现简单，仅需一阶优化。
- 通过剪切机制保障稳定性，适合高维连续动作空间。
- 样本效率高，支持并行化。
局限性：
- 超参数（如 $ϵ\epsilon$ 、学习率）需精细调节。
- 对优势函数估计敏感，依赖GAE等技巧。

6. 应用场景

游戏AI：如《Dota 2》、《星际争霸II》的智能体训练。
机器人控制：模拟环境中的机械臂、足式机器人运动。
自然语言处理：对话策略优化。

代码示例（PyTorch框架）

import torch
import torch.nn as nn
from torch.optim import Adam

class ActorCritic(nn.Module):
    def __init__(self, state_dim, action_dim):
        super().__init__()
        self.actor = nn.Sequential(nn.Linear(state_dim, 64), nn.Tanh(),
                                   nn.Linear(64, action_dim))
        self.critic = nn.Sequential(nn.Linear(state_dim, 64), nn.Tanh(),
                                    nn.Linear(64, 1))
    
    def act(self, state):
        action_probs = torch.distributions.Categorical(logits=self.actor(state))
        return action_probs.sample().item()
    
    def evaluate(self, state, action):
        logits = self.actor(state)
        value = self.critic(state).squeeze()
        dist = torch.distributions.Categorical(logits=logits)
        log_prob = dist.log_prob(action)
        entropy = dist.entropy()
        return log_prob, value, entropy

# PPO-Clip优化步骤
def ppo_update(model, optimizer, states, actions, advantages, clip_epsilon=0.2):
    log_probs, values, _ = model.evaluate(states, actions)
    ratios = torch.exp(log_probs - old_log_probs.detach())
    surr1 = ratios * advantages
    surr2 = torch.clamp(ratios, 1-clip_epsilon, 1+clip_epsilon) * advantages
    actor_loss = -torch.min(surr1, surr2).mean()
    critic_loss = nn.MSELoss()(values, returns)
    total_loss = actor_loss + 0.5 * critic_loss
    optimizer.zero_grad()
    total_loss.backward()
    optimizer.step()