Transformer——Q154 RLHF中PPO目标函数的梯度推导

最新推荐文章于 2025-09-05 21:30:00 发布

原创

最新推荐文章于 2025-09-05 21:30:00 发布 · 1k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

该问题归类到Transformer架构问题集——前沿扩展。请参考LLM数学推导——Transformer架构问题集。

1. 问题背景

在大语言模型（LLM）领域，随着模型参数量不断增加，模型生成能力显著提升，但也面临一个棘手问题：模型生成内容可能不符合人类价值观、缺乏事实准确性或在对话场景中表现不佳。例如，直接训练的 LLM 在被询问 “如何制作炸弹” 时，可能会给出详细步骤；在多轮对话中，可能出现前后逻辑矛盾的情况。为解决这些问题，基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）应运而生。

RLHF 通过引入人类反馈来指导模型优化，让模型学会生成符合人类期望的内容。近端策略优化（Proximal Policy Optimization，PPO）算法因其高效性和稳定性，成为 RLHF 中常用的优化方法。PPO 目标函数的设计与优化直接影响到 RLHF 的效果，而目标函数的梯度推导则是理解其优化过程的关键，它能帮助我们明确模型参数如何更新才能更好地符合人类反馈，进而提升模型性能。

2. 技术原理或数学理论解析

2.1 强化学习基础概念

在深入探讨 PPO 目标函数之前，先回顾强化学习的基础概念。强化学习中，智能体（Agent）在环境（Environment）中不断执行动作（Action），并根据环境反馈的奖励（Reward）来调整自身策略（Policy），以最大化长期累计奖励。

策略：用 $\pi(a|s)$ 表示，即给定状态 s 时采取动作 a 的概率。

价值函数：分为状态价值函数 $V^{\pi}(s)$ 和动作价值函数 $Q^{\pi}(s, a)$ 。 $V^{\pi}(s)$ 表示从状态 s 开始，遵循策略 $\pi$ 所能获得的期望累计奖励； $Q^{\pi}(s, a)$ 表示在状态 $s$ 执行动作 a 后，遵循策略 $\pi$ 所能获得的期望累计奖励。

奖励：环境给予智能体的反馈信号，用于指导策略优化。

2.2 PPO 算法概述

PPO 算法是一种基于策略梯度的强化学习算法，旨在优化策略以最大化期望累计奖励。它通过限制新旧策略之间的差异，避免策略更新过于激进，从而提高算法的稳定性和收敛性。

2.3 PPO 目标函数推导

2.3.1 策略梯度公式

策略梯度算法的核心思想是通过计算目标函数关于策略参数 $\theta$ 的梯度，来更新策略参数，使得目标函数值增大。目标函数通常定义为期望累计奖励，即：

$J(\theta)=\mathbb{E}_{\tau\sim\pi_{\theta}}[R(\tau)]$

其中， $\tau=(s_0, a_0, r_0, s_1, a_1, r_1, \cdots)$ 表示一个轨迹， $\pi_{\theta}$ 是参数为 $\theta$ 的策略， $R(\tau)$ 是轨迹 $\tau$ 的累计奖励。

根据策略梯度定理，目标函数 $J(\theta)$ 关于 $\theta$ 的梯度为：

$\nabla_{\theta}J(\theta)=\mathbb{E}_{\tau\sim\pi_{\theta}}\left[\sum_{t = 0}^{T}\nabla_{\theta}\log\pi_{\theta}(a_t|s_t)A^{\pi_{\theta}}(s_t, a_t)\right]$