RL中的熵机制:策略熵坍缩分析与协方差正则化方法


在这里插入图片描述

1. 研究背景

  • RL在LLMs推理中的应用瓶颈:RL是提升大语言模型推理能力的重要方向,但规模化训练面临“探索-利用失衡”问题,策略熵快速下降导致模型过早丧失探索能力,性能陷入停滞。
  • 策略熵坍缩现象:无干预时,策略熵在RL训练初期急剧下降(如前200步消耗95%熵),伴随验证性能快速饱和,且性能与熵满足指数关系 R = − a exp ⁡ H + b R = -a \exp H + b R=aexpH+b,熵耗尽( H = 0 H=0 H=0)时性能达可预测上限。
  • 传统方法的局限性:传统熵正则化方法(如熵损失、KL惩罚)对超参数敏感,易导致性能下降或不稳定,且未针对LLMs中高协方差tokens主导熵坍缩的机制设计,干预低效。
  • 研究目标:揭示策略熵动态的理论机制(协方差驱动),提出精准控制高协方差tokens的方法,突破熵瓶颈,提升RL在LLMs推理中的计算效率和性能上限。

2. 策略熵的可预测“坍缩”现象及分析

2.1 预备知识

考虑使用强化学习在可验证任务(如数学和编程)上对大语言模型进行调优,以避免reward hacking。给定输入提示 x x x,大语言模型 π θ \pi_{\theta} πθ自回归生成由 T T T个 token { y 1 , ⋯   , y t , ⋯   , y T } \{y_1, \cdots, y_t, \cdots, y_T\} {y1,,yt,,yT}组成的输出序列 y y y。使用强化学习优化语言模型策略,以最大化从验证器获得的累积奖励 r r r
max ⁡ θ J ( θ ) : = E x ∼ D , y ∼ π θ ( x ) [ r ( y ) ] \max_{\theta} J(\theta) := \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(x)}[r(y)] θmaxJ(θ):=ExD,yπθ(x)[r(y)]

其中 D \mathcal{D} D为训练分布。为优化目标函数,通常采用策略梯度算法进行梯度估计:
∇ θ J ( θ ) = E x ∼ D , y ∼ π θ ( x ) [ ∑ t = 0 T ∇ θ log ⁡ π θ ( y t ∣ y < t ) A t ] \nabla_{\theta} J(\theta) = \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(x)}\left[\sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}(y_t | y_{<t}) A_t\right] θJ(θ)=ExD,yπθ(x)[t=0Tθlogπθ(yty<t)At]

这里 A t A_t At为当前动作的优势值,在不同强化学习算法中有不同实现。例如,GRPO 对每个提示采样 K K K个response,并将优势估计为:
A t = r ( y ) − mean ( r ( y 1 : K ) ) std ( r ( y 1 : K ) ) A_t = \frac{r(y) - \text{mean}(r(y^{1:K}))}{\text{std}(r(y^{1:K}))} At=std(r(y1:K))r(y)mean(r(y1:K))

为处理离策略数据并限制策略更新幅度,PPO提出:
L ( θ ) = E t [ min ⁡ ( π θ ( y t ∣ y < t ) π θ old ( y t ∣ y < t ) A t , clip ( π θ ( y t ∣ y < t ) π θ old ( y t ∣ y < t ) , 1 − ϵ , 1 + ϵ ) A t ) ] L(\theta) = \mathbb{E}_t\left[\min\left(\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t, \text{clip}\left(\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})}, 1 - \epsilon, 1 + \epsilon\right) A_t\right)\right] L(θ)=Et[min(πθold(yty<t)πθ(yty<t)At,clip(πθold(yty<t)πθ(yty<t),1ϵ,1+ϵ)At)]

策略熵用于量化 Agent 动作选择的可预测性或随机性。给定策略模型 π θ \pi_{\theta} πθ和训练数据集 D \mathcal{D} D,策略模型在训练数据上的平均 token-level 熵,即策略熵,被定义为:
H ( π θ , D ) = − E D , π θ [ log ⁡ π θ ( y t ∣ y < t ) ] = − 1 ∣ D ∣ ∑ x ∈ D 1 ∣ y ∣ ∑ t = 1 ∣ y ∣ E y t ∼ π θ [ log ⁡ π θ ( y t ∣ y < t , x ) ] \mathcal{H}(\pi_{\theta}, \mathcal{D}) = -\mathbb{E}_{\mathcal{D}, \pi_{\theta}}\left[\log \pi_{\theta}(y_t | y_{<t})\right] = -\frac{1}{|\mathcal{D}|} \sum_{x \in \mathcal{D}} \frac{1}{|y|} \sum_{t=1}^{|y|} \mathbb{E}_{y_t \sim \pi_{\theta}}\left[\log \pi_{\theta}(y_t | y_{<t}, x)\right] H(πθ,D)=ED,πθ[logπθ(yty<t)]=D1xDy1t=1yEytπθ[logπθ(yty<t,x)]

该熵量化了策略模型在当前prompt下的不确定性水平,在最大熵强化学习中被广泛用作正则化项。

2.2 实验分析

作者在4个模型家族、11个基础模型(0.5-32B参数)上,针对数学和编程等可验证任务,采用GRPO、REINFORCE++等4种RL算法进行了策略熵与性能关系的实验。然后,有以下结论:

(1)熵坍缩与性能饱和的动态特征
在这里插入图片描述

  • 策略熵的快速坍缩:在2400步RL训练中,前200步(1/12)消耗73%熵并实现76%性能提升,前800步(1/3)消耗94%熵、获得93%性能增益,后续训练收益趋近于零,表明熵耗尽导致探索停滞。
  • 模型一致性:所有11个模型均呈现上述模式,验证熵坍缩是LLM在RL中的普遍问题。

(2)熵与性能的指数关系及预测性
在这里插入图片描述

  • 公式拟合:验证性能 R R R(准确率)与策略熵 H H H满足指数函数 R = − a exp ⁡ ( H ) + b R = -a \exp(H) + b R=aexp(H)+b,仅需2个系数即可拟合超200个数据点,适用于不同模型、任务及数据集。
  • 早期预测能力:利用前36步(15%训练量)数据拟合曲线,可准确预测Qwen2.5家族后续200步性能,且能通过 H = 0 H=0 H=0预测性能上限 R = − a + b R=-a+b R=a+b

(3)参数含义

  • 根据 d R / d H = − a exp ⁡ ( H ) dR/dH = -a \exp(H) dR/dH=aexp(H)可知,系数 a a a反映了模型将不确定性即熵转化为下游性能的速率,与模型参数呈对数线性关系。
  • 系数 b b b决定了理论上的最大性能,由模型架构和数据决定,大模型(如32B)的 b b b值显著高于小模型,表明其潜在推理能力更强。如下图所示,两个参数随着策略模型尺寸增加以对数线性速率变化。
    在这里插入图片描述
  • 不同RL算法(GRPO、RLOO、PRIME)不影响拟合曲线形式,证实熵-性能关系是模型内在特性,而非算法差异导致。

此外,作者还指出,熵耗尽时的固定上限 R = − a + b R=-a+b R=a+b表明,无干预的RL无法突破预训练模型的潜在能力,单纯增加计算量难以提升性能,需主动管理熵以维持探索。

3. 策略熵动态分析

第2节揭示了熵坍缩问题将大大障碍RL对模型性能的提升。 为了解决它,需要对策略熵的动态变化有更进一步地理解,即熵何时减少以及熵何时增加

3.1 softmax策略的熵动态理论推导

核心问题:策略熵在参数更新前后的变化机制,即step k和step k+1间的策略熵之差 H ( π θ k + 1 ) − H ( π θ k ) H(\pi_{\theta}^{k+1})-H(\pi_{\theta}^{k}) H(πθk+1)H(πθk)。作者首先考虑了LLM的softmax策略,即策略由以下公式参数化:
π θ ( a ∣ s ) = exp ⁡ ( z s , a ) ∑ a ′ ∈ A exp ⁡ ( z s , a ′ ) \pi_{\theta}(a | s) = \frac{\exp(z_{s, a})}{\sum_{a' \in \mathcal{A}} \exp(z_{s, a'})} πθ(as)=aAexp(zs,a)exp(zs,a)

其中 s ∼ d π θ s \sim d_{\pi_{\theta}} sdπθ a ∼ π θ k ( ⋅ ∣ s ) a \sim \pi_{\theta}^{k}(\cdot | s) aπθk(s)分别表示状态和动作, z s , a z_{s, a} zs,a是给定状态 s s s时动作 a a a的输出对数几率(logit)。对于softmax策略,利用泰勒展开一阶近似,推导得出熵变化与动作概率的对数 log ⁡ π θ ( a ∣ s ) \log \pi_{\theta}(a|s) logπθ(as)和对数几率变化 Δ z s , a = z s , a k + 1 − z s , a k \Delta z_{s,a} = z_{s,a}^{k+1} - z_{s,a}^{k} Δzs,a=zs,ak+1zs,ak的协方差成反比:
Δ H ≈ − E s [ Cov a ∼ π θ k ( log ⁡ π θ k ( a ∣ s ) , Δ z s , a ) ] \Delta H \approx -\mathbb{E}_{s}\left[\text{Cov}_{a \sim \pi_{\theta}^k}( \log \pi_{\theta}^k(a|s), \Delta z_{s,a} )\right] ΔHEs[Covaπθk(logπθk(as),Δzs,a)]

  • 物理意义:高概率动作的对数几率增加(正协方差)会降低熵,低概率动作的对数几率增加(负协方差)会提升熵。

3.2 策略梯度下的熵动态变化机制

策略梯度类算法(如REINFORCE、GRPO):

  • 对数几率变化与动作优势 A ( s , a ) A(s,a) A(s,a)成正比: Δ z s , a = η ⋅ π θ ( a ∣ s ) ⋅ A ( s , a ) \Delta z_{s,a} = \eta \cdot \pi_{\theta}(a|s) \cdot A(s,a) Δzs,a=ηπθ(as)A(s,a) η \eta η为学习率)。
  • 熵变化公式:
    Δ H ≈ − η ⋅ E s [ Cov a ∼ π θ k ( log ⁡ π θ k ( a ∣ s ) , π θ k ( a ∣ s ) ⋅ A ( s , a ) ) ] \Delta H \approx -\eta \cdot \mathbb{E}_{s}\left[\text{Cov}_{a \sim \pi_{\theta}^k}( \log \pi_{\theta}^k(a|s), \pi_{\theta}^k(a|s) \cdot A(s,a) )\right] ΔHηEs[Covaπθk(logπθk(as),πθk(as)A(s,a))]

结论:高概率且高优势的动作(如训练初期的“自信”动作)会显著降低熵。

自然策略梯度(Natural Policy Gradient):

  • 对数几率变化直接与优势成正比: Δ z s , a = η ⋅ A ( s , a ) \Delta z_{s,a} = \eta \cdot A(s,a) Δzs,a=ηA(s,a)
  • 熵变化公式:
    Δ H ≈ − η ⋅ E s [ Cov a ∼ π θ k ( log ⁡ π θ k ( a ∣ s ) , A ( s , a ) ) ] \Delta H \approx -\eta \cdot \mathbb{E}_{s}\left[\text{Cov}_{a \sim \pi_{\theta}^k}( \log \pi_{\theta}^k(a|s), A(s,a) )\right] ΔHηEs[Covaπθk(logπθk(as),A(s,a))]

结论:动作优势与概率的正相关性仍主导熵下降。

3.3 实验验证

采用GRPO算法在Qwen2.5-7B上进行带策略梯度的在线学习,计算每个prompt的组内协方差,并按准确率划分难度组(低准确率=高难度)。

实验结论:
在这里插入图片描述

  • 协方差与熵变化的一致性:
    • 训练初期协方差显著为正,且与熵下降速率高度吻合,验证了“正协方差导致熵单调下降”的理论。
    • 协方差随训练逐渐降低但保持正值,解释了熵持续缓慢下降的现象。
  • 难度依赖性:
    • 简单任务(高准确率)的协方差更高,模型对高概率动作的优势估计更一致,加速熵坍缩;
    • 困难任务(低准确率)的协方差较低,模型不确定性更高,熵下降更缓慢。

3.4 核心结论

  • 熵坍缩的本质原因:RL算法对高概率高优势动作的偏好(正协方差主导)导致策略分布快速集中,探索能力丧失。
  • 结论:若要提升熵,需抑制高协方差动作的更新(如减少其梯度贡献),或鼓励低概率高优势动作(负协方差)的探索。

4. 熵控制方法:协方差正则化

4.1 熵正则化方法分析

传统RL中常用熵损失(Entropy Loss)或KL惩罚(KL Penalty)维持策略熵,但在LLMs的RL场景中效果有限。

实验设计:

  • 熵损失:在损失函数中添加熵项 L ent = L − α H ( π θ ) L_{\text{ent}} = L - \alpha \mathcal{H}(\pi_{\theta}) Lent=LαH(πθ),其中 α \alpha α为熵系数。
  • KL惩罚:在损失函数中引入当前策略与参考策略的KL散度。

实验结论:

  1. 熵损失的敏感性:当 α ≤ 0.001 \alpha \leq 0.001 α0.001时,熵几乎无变化,性能提升有限;当 α = 0.01 \alpha = 0.01 α=0.01时,熵出现“爆炸”式增长,模型陷入随机探索,性能显著下降; α = 0.005 \alpha = 0.005 α=0.005虽能暂时稳定熵,但最终性能未超越基线。
  2. KL惩罚的局限性:KL虽能维持熵值,但导致策略偏离有效路径,性能普遍低于基线。

因此,传统熵正则化方法在LLMs中面临“高敏感性”和“低效探索”问题,原因在于其未针对LLMs中高协方差tokens主导熵坍缩的机制设计,而是全局干预策略分布,导致探索与利用的平衡失效。

4.2 抑制高协方差Token

根据第三章理论,策略熵坍缩主要由高协方差tokens(即高概率且高优势的动作)驱动。因此,控制熵的关键在于选择性抑制此类tokens的更新,而非全局调整策略分布。

少数tokens主导协方差:实验表明,仅0.02%的高协方差tokens的平均协方差值是整体平均值的1800倍以上。这些tokens的更新直接导致熵快速下降,抑制其梯度或施加惩罚可有效减缓熵坍缩。

4.2.1 Clip-Cov(协方差裁剪)

  • 原理:随机选择一小部分高协方差tokens,切断其与策略梯度的连接,阻止其对参数更新的贡献。
  • 实现步骤:
    • 计算每个token的协方差
      Cov ( y i ) = ( log ⁡ π θ ( y i ) − mean ( log ⁡ π θ ( y j ) ) ) ⋅ ( A ( y i ) − mean ( A ( y j ) ) ) \text{Cov}(y_i) = \left(\log \pi_{\theta}(y_i) - \text{mean}(\log \pi_{\theta}(y_j))\right) \cdot \left(A(y_i) - \text{mean}(A(y_j))\right) Cov(yi)=(logπθ(yi)mean(logπθ(yj)))(A(yi)mean(A(yj)))
    • 设定协方差阈值(如高于平均500倍),随机选取 r ⋅ N r \cdot N rN个高协方差tokens( r = 2 × 10 − 4 r = 2 \times 10^{-4} r=2×104),即集合 I c l i p I_{clip} Iclip
    • 在梯度计算中剔除这些tokens的贡献( detach \text{detach} detach操作),仅更新剩余tokens。
  • 公式化:
    L Clip-Cov ( θ ) = { E t [ π θ ( y t ∣ y < t ) π θ old ( y t ∣ y < t ) A t ] , t ∉ I clip 0 , t ∈ I clip L_{\text{Clip-Cov}}(\theta) = \begin{cases} \mathbb{E}_t\left[\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t\right], & t \notin I_{\text{clip}} \\ 0, & t \in I_{\text{clip}} \end{cases} LClip-Cov(θ)={Et[πθold(yty<t)πθ(yty<t)At],0,t/IcliptIclip
    其中 I clip I_{\text{clip}} Iclip为选中的高协方差token索引集。

4.2.2 KL-Cov(协方差KL惩罚)

  • 原理:对高协方差tokens施加KL散度惩罚,强制其策略分布接近旧策略,抑制过度自信。
  • 实现步骤:
    • 按协方差排序,选取前 k ⋅ N k \cdot N kN个tokens。对于7B模型, k = 2 × 10 − 3 k = 2 \times 10^{-3} k=2×103;对于32B模型, k = 2 × 10 − 4 k = 2 \times 10^{-4} k=2×104
    • 在损失函数中对这些tokens添加KL惩罚项:
      L KL-Cov ( θ ) = { E t [ π θ ( y t ∣ y < t ) π θ old ( y t ∣ y < t ) A t ] , t ∉ I KL E t [ π θ ( y t ∣ y < t ) π θ old ( y t ∣ y < t ) A t − β ⋅ KL ( π θ old ∣ ∣ π θ ) ] , t ∈ I KL L_{\text{KL-Cov}}(\theta) = \begin{cases} \mathbb{E}_t\left[\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t\right], & t \notin I_{\text{KL}} \\ \mathbb{E}_t\left[\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t - \beta \cdot \text{KL}(\pi_{\theta_{\text{old}}} || \pi_{\theta})\right], & t \in I_{\text{KL}} \end{cases} LKL-Cov(θ)= Et[πθold(yty<t)πθ(yty<t)At],Et[πθold(yty<t)πθ(yty<t)AtβKL(πθold∣∣πθ)],t/IKLtIKL
      其中 β = 1 \beta = 1 β=1为惩罚系数, I KL I_{\text{KL}} IKL为高协方差token索引集。

4.3 实验

主要基于Qwen2.5(7B和32B),以及数学推理任务(如AIME 2024/2025、MATH500等)进行实验。
在这里插入图片描述
在这里插入图片描述

  • 基线GRPO的策略熵在训练初期骤降至近0,而Clip-Cov/KL-Cov使熵值始终维持在基线的10倍以上,且曲线更稳定,避免了传统方法(如Clip-higher)的后期波动或坍缩。
  • Qwen2.5-7B平均准确率提升2%(AIME24从21.2%→22.1%),32B提升6.4%(AIME24从21.8%→36.8%),尤其在高难度任务(如OlympiadBench)中优势明显。
  • 模型规模与干预效果的正相关性: 32B模型的性能提升幅度远高于7B,揭示大模型对高协方差tokens的依赖更强,熵控制对释放其推理潜力更关键。
  • 定性分析显示,KL-Cov模型生成的响应包含更多中间推理步骤,避免了基线模型的简单答案过拟合倾向,证明熵控制可促进探索更复杂的解题策略。
  • 在相同训练步数下,Clip-Cov/KL-Cov通过维持有效探索,使大模型的计算资源利用率显著高于基线,为RL的规模化训练提供了效率优化路径。

5. 总结

这篇文章针对大语言模型在RL推理中面临的策略熵坍缩问题展开研究。在RL训练中,无干预时策略熵会在初期急剧下降至近0,导致模型探索能力丧失、性能提前饱和,且性能与熵呈可预测的指数关系 R = − a exp ⁡ H + b R = -a \exp H + b R=aexpH+b,熵耗尽时性能达到上限。传统熵正则化方法(如熵损失、KL惩罚)因全局干预且未针对核心机制,效果有限且超参数敏感。

通过理论分析,作者发现策略熵变化由动作概率与对数几率变化的协方差驱动,高概率高优势动作的正协方差主导熵单调下降。基于此,提出Clip-Cov(裁剪高协方差tokens梯度)和KL-Cov(对高协方差tokens施加KL惩罚)两种方法,精准抑制少数主导熵坍缩的tokens更新。实验表明,两种方法可使策略熵维持在基线10倍以上,Qwen2.5-32B在数学推理任务中准确率提升6.4%,高难度任务AIME24提升15%,验证了方法的有效性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Cyril_KI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值