该问题归类到Transformer架构问题集——前沿扩展。请参考LLM数学推导——Transformer架构问题集。
1. 问题背景
在大语言模型(LLM)领域,随着模型参数量不断增加,模型生成能力显著提升,但也面临一个棘手问题:模型生成内容可能不符合人类价值观、缺乏事实准确性或在对话场景中表现不佳 。例如,直接训练的 LLM 在被询问 “如何制作炸弹” 时,可能会给出详细步骤;在多轮对话中,可能出现前后逻辑矛盾的情况。为解决这些问题,基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)应运而生。
RLHF 通过引入人类反馈来指导模型优化,让模型学会生成符合人类期望的内容。近端策略优化(Proximal Policy Optimization,PPO)算法因其高效性和稳定性,成为 RLHF 中常用的优化方法。PPO 目标函数的设计与优化直接影响到 RLHF 的效果,而目标函数的梯度推导则是理解其优化过程的关键,它能帮助我们明确模型参数如何更新才能更好地符合人类反馈,进而提升模型性能。
2. 技术原理或数学理论解析
2.1 强化学习基础概念
在深入探讨 PPO 目标函数之前,先回顾强化学习的基础概念。强化学习中,智能体(Agent)在环境(Environment)中不断执行动作(Action),并根据环境反馈的奖励(Reward)来调整自身策略(Policy),以最大化长期累计奖励。
- 策略:用
表示,即给定状态 s 时采取动作 a 的概率。
- 价值函数:分为状态价值函数
和动作价值函数
。
表示从状态 s 开始,遵循策略
所能获得的期望累计奖励;
表示在状态 \(s\) 执行动作 a 后,遵循策略
所能获得的期望累计奖励。
- 奖励:环境给予智能体的反馈信号,用于指导策略优化。
2.2 PPO 算法概述
PPO 算法是一种基于策略梯度的强化学习算法,旨在优化策略以最大化期望累计奖励。它通过限制新旧策略之间的差异,避免策略更新过于激进,从而提高算法的稳定性和收敛性。
2.3 PPO 目标函数推导
2.3.1 策略梯度公式
策略梯度算法的核心思想是通过计算目标函数关于策略参数 的梯度,来更新策略参数,使得目标函数值增大。目标函数通常定义为期望累计奖励,即:
其中, 表示一个轨迹,
是参数为
的策略,
是轨迹
的累计奖励。
根据策略梯度定理,目标函数 关于
的梯度为:
其中,

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



