文章目录

1. 研究背景
- RL在LLMs推理中的应用瓶颈:RL是提升大语言模型推理能力的重要方向,但规模化训练面临“探索-利用失衡”问题,策略熵快速下降导致模型过早丧失探索能力,性能陷入停滞。
- 策略熵坍缩现象:无干预时,策略熵在RL训练初期急剧下降(如前200步消耗95%熵),伴随验证性能快速饱和,且性能与熵满足指数关系 R = − a exp H + b R = -a \exp H + b R=−aexpH+b,熵耗尽( H = 0 H=0 H=0)时性能达可预测上限。
- 传统方法的局限性:传统熵正则化方法(如熵损失、KL惩罚)对超参数敏感,易导致性能下降或不稳定,且未针对LLMs中高协方差tokens主导熵坍缩的机制设计,干预低效。
- 研究目标:揭示策略熵动态的理论机制(协方差驱动),提出精准控制高协方差tokens的方法,突破熵瓶颈,提升RL在LLMs推理中的计算效率和性能上限。
2. 策略熵的可预测“坍缩”现象及分析
2.1 预备知识
考虑使用强化学习在可验证任务(如数学和编程)上对大语言模型进行调优,以避免reward hacking。给定输入提示
x
x
x,大语言模型
π
θ
\pi_{\theta}
πθ自回归生成由
T
T
T个 token
{
y
1
,
⋯
,
y
t
,
⋯
,
y
T
}
\{y_1, \cdots, y_t, \cdots, y_T\}
{y1,⋯,yt,⋯,yT}组成的输出序列
y
y
y。使用强化学习优化语言模型策略,以最大化从验证器获得的累积奖励
r
r
r:
max
θ
J
(
θ
)
:
=
E
x
∼
D
,
y
∼
π
θ
(
x
)
[
r
(
y
)
]
\max_{\theta} J(\theta) := \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(x)}[r(y)]
θmaxJ(θ):=Ex∼D,y∼πθ(x)[r(y)]
其中
D
\mathcal{D}
D为训练分布。为优化目标函数,通常采用策略梯度算法进行梯度估计:
∇
θ
J
(
θ
)
=
E
x
∼
D
,
y
∼
π
θ
(
x
)
[
∑
t
=
0
T
∇
θ
log
π
θ
(
y
t
∣
y
<
t
)
A
t
]
\nabla_{\theta} J(\theta) = \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(x)}\left[\sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}(y_t | y_{<t}) A_t\right]
∇θJ(θ)=Ex∼D,y∼πθ(x)[t=0∑T∇θlogπθ(yt∣y<t)At]
这里
A
t
A_t
At为当前动作的优势值,在不同强化学习算法中有不同实现。例如,GRPO 对每个提示采样
K
K
K个response,并将优势估计为:
A
t
=
r
(
y
)
−
mean
(
r
(
y
1
:
K
)
)
std
(
r
(
y
1
:
K
)
)
A_t = \frac{r(y) - \text{mean}(r(y^{1:K}))}{\text{std}(r(y^{1:K}))}
At=std(r(y1:K))r(y)−mean(r(y1:K))
为处理离策略数据并限制策略更新幅度,PPO提出:
L
(
θ
)
=
E
t
[
min
(
π
θ
(
y
t
∣
y
<
t
)
π
θ
old
(
y
t
∣
y
<
t
)
A
t
,
clip
(
π
θ
(
y
t
∣
y
<
t
)
π
θ
old
(
y
t
∣
y
<
t
)
,
1
−
ϵ
,
1
+
ϵ
)
A
t
)
]
L(\theta) = \mathbb{E}_t\left[\min\left(\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t, \text{clip}\left(\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})}, 1 - \epsilon, 1 + \epsilon\right) A_t\right)\right]
L(θ)=Et[min(πθold(yt∣y<t)πθ(yt∣y<t)At,clip(πθold(yt∣y<t)πθ(yt∣y<t),1−ϵ,1+ϵ)At)]
策略熵用于量化 Agent 动作选择的可预测性或随机性。给定策略模型
π
θ
\pi_{\theta}
πθ和训练数据集
D
\mathcal{D}
D,策略模型在训练数据上的平均 token-level 熵,即策略熵,被定义为:
H
(
π
θ
,
D
)
=
−
E
D
,
π
θ
[
log
π
θ
(
y
t
∣
y
<
t
)
]
=
−
1
∣
D
∣
∑
x
∈
D
1
∣
y
∣
∑
t
=
1
∣
y
∣
E
y
t
∼
π
θ
[
log
π
θ
(
y
t
∣
y
<
t
,
x
)
]
\mathcal{H}(\pi_{\theta}, \mathcal{D}) = -\mathbb{E}_{\mathcal{D}, \pi_{\theta}}\left[\log \pi_{\theta}(y_t | y_{<t})\right] = -\frac{1}{|\mathcal{D}|} \sum_{x \in \mathcal{D}} \frac{1}{|y|} \sum_{t=1}^{|y|} \mathbb{E}_{y_t \sim \pi_{\theta}}\left[\log \pi_{\theta}(y_t | y_{<t}, x)\right]
H(πθ,D)=−ED,πθ[logπθ(yt∣y<t)]=−∣D∣1x∈D∑∣y∣1t=1∑∣y∣Eyt∼πθ[logπθ(yt∣y<t,x)]
该熵量化了策略模型在当前prompt下的不确定性水平,在最大熵强化学习中被广泛用作正则化项。
2.2 实验分析
作者在4个模型家族、11个基础模型(0.5-32B参数)上,针对数学和编程等可验证任务,采用GRPO、REINFORCE++等4种RL算法进行了策略熵与性能关系的实验。然后,有以下结论:
(1)熵坍缩与性能饱和的动态特征
- 策略熵的快速坍缩:在2400步RL训练中,前200步(1/12)消耗73%熵并实现76%性能提升,前800步(1/3)消耗94%熵、获得93%性能增益,后续训练收益趋近于零,表明熵耗尽导致探索停滞。
- 模型一致性:所有11个模型均呈现上述模式,验证熵坍缩是LLM在RL中的普遍问题。
(2)熵与性能的指数关系及预测性
- 公式拟合:验证性能 R R R(准确率)与策略熵 H H H满足指数函数 R = − a exp ( H ) + b R = -a \exp(H) + b R=−aexp(H)+b,仅需2个系数即可拟合超200个数据点,适用于不同模型、任务及数据集。
- 早期预测能力:利用前36步(15%训练量)数据拟合曲线,可准确预测Qwen2.5家族后续200步性能,且能通过 H = 0 H=0 H=0预测性能上限 R = − a + b R=-a+b R=−a+b。
(3)参数含义
- 根据 d R / d H = − a exp ( H ) dR/dH = -a \exp(H) dR/dH=−aexp(H)可知,系数 a a a反映了模型将不确定性即熵转化为下游性能的速率,与模型参数呈对数线性关系。
- 系数
b
b
b决定了理论上的最大性能,由模型架构和数据决定,大模型(如32B)的
b
b
b值显著高于小模型,表明其潜在推理能力更强。如下图所示,两个参数随着策略模型尺寸增加以对数线性速率变化。
- 不同RL算法(GRPO、RLOO、PRIME)不影响拟合曲线形式,证实熵-性能关系是模型内在特性,而非算法差异导致。
此外,作者还指出,熵耗尽时的固定上限 R = − a + b R=-a+b R=−a+b表明,无干预的RL无法突破预训练模型的潜在能力,单纯增加计算量难以提升性能,需主动管理熵以维持探索。
3. 策略熵动态分析
第2节揭示了熵坍缩问题将大大障碍RL对模型性能的提升。 为了解决它,需要对策略熵的动态变化有更进一步地理解,即熵何时减少以及熵何时增加。
3.1 softmax策略的熵动态理论推导
核心问题:策略熵在参数更新前后的变化机制,即step k和step k+1间的策略熵之差
H
(
π
θ
k
+
1
)
−
H
(
π
θ
k
)
H(\pi_{\theta}^{k+1})-H(\pi_{\theta}^{k})
H(πθk+1)−H(πθk)。作者首先考虑了LLM的softmax策略,即策略由以下公式参数化:
π
θ
(
a
∣
s
)
=
exp
(
z
s
,
a
)
∑
a
′
∈
A
exp
(
z
s
,
a
′
)
\pi_{\theta}(a | s) = \frac{\exp(z_{s, a})}{\sum_{a' \in \mathcal{A}} \exp(z_{s, a'})}
πθ(a∣s)=∑a′∈Aexp(zs,a′)exp(zs,a)
其中
s
∼
d
π
θ
s \sim d_{\pi_{\theta}}
s∼dπθ和
a
∼
π
θ
k
(
⋅
∣
s
)
a \sim \pi_{\theta}^{k}(\cdot | s)
a∼πθk(⋅∣s)分别表示状态和动作,
z
s
,
a
z_{s, a}
zs,a是给定状态
s
s
s时动作
a
a
a的输出对数几率(logit)。对于softmax策略,利用泰勒展开一阶近似,推导得出熵变化与动作概率的对数
log
π
θ
(
a
∣
s
)
\log \pi_{\theta}(a|s)
logπθ(a∣s)和对数几率变化
Δ
z
s
,
a
=
z
s
,
a
k
+
1
−
z
s
,
a
k
\Delta z_{s,a} = z_{s,a}^{k+1} - z_{s,a}^{k}
Δzs,a=zs,ak+1−zs,ak的协方差成反比:
Δ
H
≈
−
E
s
[
Cov
a
∼
π
θ
k
(
log
π
θ
k
(
a
∣
s
)
,
Δ
z
s
,
a
)
]
\Delta H \approx -\mathbb{E}_{s}\left[\text{Cov}_{a \sim \pi_{\theta}^k}( \log \pi_{\theta}^k(a|s), \Delta z_{s,a} )\right]
ΔH≈−Es[Cova∼πθk(logπθk(a∣s),Δzs,a)]
- 物理意义:高概率动作的对数几率增加(正协方差)会降低熵,低概率动作的对数几率增加(负协方差)会提升熵。
3.2 策略梯度下的熵动态变化机制
策略梯度类算法(如REINFORCE、GRPO):
- 对数几率变化与动作优势 A ( s , a ) A(s,a) A(s,a)成正比: Δ z s , a = η ⋅ π θ ( a ∣ s ) ⋅ A ( s , a ) \Delta z_{s,a} = \eta \cdot \pi_{\theta}(a|s) \cdot A(s,a) Δzs,a=η⋅πθ(a∣s)⋅A(s,a)( η \eta η为学习率)。
- 熵变化公式:
Δ H ≈ − η ⋅ E s [ Cov a ∼ π θ k ( log π θ k ( a ∣ s ) , π θ k ( a ∣ s ) ⋅ A ( s , a ) ) ] \Delta H \approx -\eta \cdot \mathbb{E}_{s}\left[\text{Cov}_{a \sim \pi_{\theta}^k}( \log \pi_{\theta}^k(a|s), \pi_{\theta}^k(a|s) \cdot A(s,a) )\right] ΔH≈−η⋅Es[Cova∼πθk(logπθk(a∣s),πθk(a∣s)⋅A(s,a))]
结论:高概率且高优势的动作(如训练初期的“自信”动作)会显著降低熵。
自然策略梯度(Natural Policy Gradient):
- 对数几率变化直接与优势成正比: Δ z s , a = η ⋅ A ( s , a ) \Delta z_{s,a} = \eta \cdot A(s,a) Δzs,a=η⋅A(s,a)。
- 熵变化公式:
Δ H ≈ − η ⋅ E s [ Cov a ∼ π θ k ( log π θ k ( a ∣ s ) , A ( s , a ) ) ] \Delta H \approx -\eta \cdot \mathbb{E}_{s}\left[\text{Cov}_{a \sim \pi_{\theta}^k}( \log \pi_{\theta}^k(a|s), A(s,a) )\right] ΔH≈−η⋅Es[Cova∼πθk(logπθk(a∣s),A(s,a))]
结论:动作优势与概率的正相关性仍主导熵下降。
3.3 实验验证
采用GRPO算法在Qwen2.5-7B上进行带策略梯度的在线学习,计算每个prompt的组内协方差,并按准确率划分难度组(低准确率=高难度)。
实验结论:
- 协方差与熵变化的一致性:
- 训练初期协方差显著为正,且与熵下降速率高度吻合,验证了“正协方差导致熵单调下降”的理论。
- 协方差随训练逐渐降低但保持正值,解释了熵持续缓慢下降的现象。
- 难度依赖性:
- 简单任务(高准确率)的协方差更高,模型对高概率动作的优势估计更一致,加速熵坍缩;
- 困难任务(低准确率)的协方差较低,模型不确定性更高,熵下降更缓慢。
3.4 核心结论
- 熵坍缩的本质原因:RL算法对高概率高优势动作的偏好(正协方差主导)导致策略分布快速集中,探索能力丧失。
- 结论:若要提升熵,需抑制高协方差动作的更新(如减少其梯度贡献),或鼓励低概率高优势动作(负协方差)的探索。
4. 熵控制方法:协方差正则化
4.1 熵正则化方法分析
传统RL中常用熵损失(Entropy Loss)或KL惩罚(KL Penalty)维持策略熵,但在LLMs的RL场景中效果有限。
实验设计:
- 熵损失:在损失函数中添加熵项 L ent = L − α H ( π θ ) L_{\text{ent}} = L - \alpha \mathcal{H}(\pi_{\theta}) Lent=L−αH(πθ),其中 α \alpha α为熵系数。
- KL惩罚:在损失函数中引入当前策略与参考策略的KL散度。
实验结论:
- 熵损失的敏感性:当 α ≤ 0.001 \alpha \leq 0.001 α≤0.001时,熵几乎无变化,性能提升有限;当 α = 0.01 \alpha = 0.01 α=0.01时,熵出现“爆炸”式增长,模型陷入随机探索,性能显著下降; α = 0.005 \alpha = 0.005 α=0.005虽能暂时稳定熵,但最终性能未超越基线。
- KL惩罚的局限性:KL虽能维持熵值,但导致策略偏离有效路径,性能普遍低于基线。
因此,传统熵正则化方法在LLMs中面临“高敏感性”和“低效探索”问题,原因在于其未针对LLMs中高协方差tokens主导熵坍缩的机制设计,而是全局干预策略分布,导致探索与利用的平衡失效。
4.2 抑制高协方差Token
根据第三章理论,策略熵坍缩主要由高协方差tokens(即高概率且高优势的动作)驱动。因此,控制熵的关键在于选择性抑制此类tokens的更新,而非全局调整策略分布。
少数tokens主导协方差:实验表明,仅0.02%的高协方差tokens的平均协方差值是整体平均值的1800倍以上。这些tokens的更新直接导致熵快速下降,抑制其梯度或施加惩罚可有效减缓熵坍缩。
4.2.1 Clip-Cov(协方差裁剪)
- 原理:随机选择一小部分高协方差tokens,切断其与策略梯度的连接,阻止其对参数更新的贡献。
- 实现步骤:
- 计算每个token的协方差
Cov ( y i ) = ( log π θ ( y i ) − mean ( log π θ ( y j ) ) ) ⋅ ( A ( y i ) − mean ( A ( y j ) ) ) \text{Cov}(y_i) = \left(\log \pi_{\theta}(y_i) - \text{mean}(\log \pi_{\theta}(y_j))\right) \cdot \left(A(y_i) - \text{mean}(A(y_j))\right) Cov(yi)=(logπθ(yi)−mean(logπθ(yj)))⋅(A(yi)−mean(A(yj))) - 设定协方差阈值(如高于平均500倍),随机选取 r ⋅ N r \cdot N r⋅N个高协方差tokens( r = 2 × 10 − 4 r = 2 \times 10^{-4} r=2×10−4),即集合 I c l i p I_{clip} Iclip
- 在梯度计算中剔除这些tokens的贡献( detach \text{detach} detach操作),仅更新剩余tokens。
- 计算每个token的协方差
- 公式化:
L Clip-Cov ( θ ) = { E t [ π θ ( y t ∣ y < t ) π θ old ( y t ∣ y < t ) A t ] , t ∉ I clip 0 , t ∈ I clip L_{\text{Clip-Cov}}(\theta) = \begin{cases} \mathbb{E}_t\left[\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t\right], & t \notin I_{\text{clip}} \\ 0, & t \in I_{\text{clip}} \end{cases} LClip-Cov(θ)={Et[πθold(yt∣y<t)πθ(yt∣y<t)At],0,t∈/Iclipt∈Iclip
其中 I clip I_{\text{clip}} Iclip为选中的高协方差token索引集。
4.2.2 KL-Cov(协方差KL惩罚)
- 原理:对高协方差tokens施加KL散度惩罚,强制其策略分布接近旧策略,抑制过度自信。
- 实现步骤:
- 按协方差排序,选取前 k ⋅ N k \cdot N k⋅N个tokens。对于7B模型, k = 2 × 10 − 3 k = 2 \times 10^{-3} k=2×10−3;对于32B模型, k = 2 × 10 − 4 k = 2 \times 10^{-4} k=2×10−4。
- 在损失函数中对这些tokens添加KL惩罚项:
L KL-Cov ( θ ) = { E t [ π θ ( y t ∣ y < t ) π θ old ( y t ∣ y < t ) A t ] , t ∉ I KL E t [ π θ ( y t ∣ y < t ) π θ old ( y t ∣ y < t ) A t − β ⋅ KL ( π θ old ∣ ∣ π θ ) ] , t ∈ I KL L_{\text{KL-Cov}}(\theta) = \begin{cases} \mathbb{E}_t\left[\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t\right], & t \notin I_{\text{KL}} \\ \mathbb{E}_t\left[\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t - \beta \cdot \text{KL}(\pi_{\theta_{\text{old}}} || \pi_{\theta})\right], & t \in I_{\text{KL}} \end{cases} LKL-Cov(θ)=⎩ ⎨ ⎧Et[πθold(yt∣y<t)πθ(yt∣y<t)At],Et[πθold(yt∣y<t)πθ(yt∣y<t)At−β⋅KL(πθold∣∣πθ)],t∈/IKLt∈IKL
其中 β = 1 \beta = 1 β=1为惩罚系数, I KL I_{\text{KL}} IKL为高协方差token索引集。
4.3 实验
主要基于Qwen2.5(7B和32B),以及数学推理任务(如AIME 2024/2025、MATH500等)进行实验。
- 基线GRPO的策略熵在训练初期骤降至近0,而Clip-Cov/KL-Cov使熵值始终维持在基线的10倍以上,且曲线更稳定,避免了传统方法(如Clip-higher)的后期波动或坍缩。
- Qwen2.5-7B平均准确率提升2%(AIME24从21.2%→22.1%),32B提升6.4%(AIME24从21.8%→36.8%),尤其在高难度任务(如OlympiadBench)中优势明显。
- 模型规模与干预效果的正相关性: 32B模型的性能提升幅度远高于7B,揭示大模型对高协方差tokens的依赖更强,熵控制对释放其推理潜力更关键。
- 定性分析显示,KL-Cov模型生成的响应包含更多中间推理步骤,避免了基线模型的简单答案过拟合倾向,证明熵控制可促进探索更复杂的解题策略。
- 在相同训练步数下,Clip-Cov/KL-Cov通过维持有效探索,使大模型的计算资源利用率显著高于基线,为RL的规模化训练提供了效率优化路径。
5. 总结
这篇文章针对大语言模型在RL推理中面临的策略熵坍缩问题展开研究。在RL训练中,无干预时策略熵会在初期急剧下降至近0,导致模型探索能力丧失、性能提前饱和,且性能与熵呈可预测的指数关系 R = − a exp H + b R = -a \exp H + b R=−aexpH+b,熵耗尽时性能达到上限。传统熵正则化方法(如熵损失、KL惩罚)因全局干预且未针对核心机制,效果有限且超参数敏感。
通过理论分析,作者发现策略熵变化由动作概率与对数几率变化的协方差驱动,高概率高优势动作的正协方差主导熵单调下降。基于此,提出Clip-Cov(裁剪高协方差tokens梯度)和KL-Cov(对高协方差tokens施加KL惩罚)两种方法,精准抑制少数主导熵坍缩的tokens更新。实验表明,两种方法可使策略熵维持在基线10倍以上,Qwen2.5-32B在数学推理任务中准确率提升6.4%,高难度任务AIME24提升15%,验证了方法的有效性。