RL中的熵机制：策略熵坍缩分析与协方差正则化方法-优快云博客

本文链接：https://blog.youkuaiyun.com/Cyril_KI/article/details/148406669

文章目录

1. 研究背景
2. 策略熵的可预测“坍缩”现象及分析
- 2.1 预备知识
- 2.2 实验分析
3. 策略熵动态分析
4. 熵控制方法：协方差正则化
5. 总结

1. 研究背景

RL在LLMs推理中的应用瓶颈：RL是提升大语言模型推理能力的重要方向，但规模化训练面临“探索-利用失衡”问题，策略熵快速下降导致模型过早丧失探索能力，性能陷入停滞。
策略熵坍缩现象：无干预时，策略熵在RL训练初期急剧下降（如前200步消耗95%熵），伴随验证性能快速饱和，且性能与熵满足指数关系 $\exp H + b$ ，熵耗尽（ $H = 0$ ）时性能达可预测上限。
传统方法的局限性：传统熵正则化方法（如熵损失、KL惩罚）对超参数敏感，易导致性能下降或不稳定，且未针对LLMs中高协方差tokens主导熵坍缩的机制设计，干预低效。
研究目标：揭示策略熵动态的理论机制（协方差驱动），提出精准控制高协方差tokens的方法，突破熵瓶颈，提升RL在LLMs推理中的计算效率和性能上限。

2. 策略熵的可预测“坍缩”现象及分析

2.1 预备知识

考虑使用强化学习在可验证任务（如数学和编程）上对大语言模型进行调优，以避免reward hacking。给定输入提示 $x$ ，大语言模型 $\pi_{\theta}$ 自回归生成由 $T$ 个 token $\{y_1, \cdots, y_t, \cdots, y_T\}$ 组成的输出序列 $y$ 。使用强化学习优化语言模型策略，以最大化从验证器获得的累积奖励 $r$ ：
$\max_{\theta} J(\theta) := \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(x)}[r(y)]$

其中 $\mathcal{D}$ 为训练分布。为优化目标函数，通常采用策略梯度算法进行梯度估计：
$\nabla_{\theta} J(\theta) = \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(x)}\left[\sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}(y_t | y_{<t}) A_t\right]$

这里 $A_t$ 为当前动作的优势值，在不同强化学习算法中有不同实现。例如，GRPO 对每个提示采样 $K$ 个response，并将优势估计为：
$A_t = \frac{r(y) - \text{mean}(r(y^{1:K}))}{\text{std}(r(y^{1:K}))}$

为处理离策略数据并限制策略更新幅度，PPO提出：
$L(\theta) = \mathbb{E}_t\left[\min\left(\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t, \text{clip}\left(\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})}, 1 - \epsilon, 1 + \epsilon\right) A_t\right)\right]$

策略熵用于量化 Agent 动作选择的可预测性或随机性。给定策略模型 $\pi_{\theta}$ 和训练数据集 $\mathcal{D}$ ，策略模型在训练数据上的平均 token-level 熵，即策略熵，被定义为：
$\mathcal{H}(\pi_{\theta}, \mathcal{D}) = -\mathbb{E}_{\mathcal{D}, \pi_{\theta}}\left[\log \pi_{\theta}(y_t | y_{<t})\right] = -\frac{1}{|\mathcal{D}|} \sum_{x \in \mathcal{D}} \frac{1}{|y|} \sum_{t=1}^{|y|} \mathbb{E}_{y_t \sim \pi_{\theta}}\left[\log \pi_{\theta}(y_t | y_{<t}, x)\right]$

该熵量化了策略模型在当前prompt下的不确定性水平，在最大熵强化学习中被广泛用作正则化项。

2.2 实验分析

作者在4个模型家族、11个基础模型（0.5-32B参数）上，针对数学和编程等可验证任务，采用GRPO、REINFORCE++等4种RL算法进行了策略熵与性能关系的实验。然后，有以下结论：

（1）熵坍缩与性能饱和的动态特征
在这里插入图片描述

策略熵的快速坍缩：在2400步RL训练中，前200步（1/12）消耗73%熵并实现76%性能提升，前800步（1/3）消耗94%熵、获得93%性能增益，后续训练收益趋近于零，表明熵耗尽导致探索停滞。
模型一致性：所有11个模型均呈现上述模式，验证熵坍缩是LLM在RL中的普遍问题。

（2）熵与性能的指数关系及预测性
在这里插入图片描述

公式拟合：验证性能 $R$ （准确率）与策略熵 $H$ 满足指数函数 $\exp(H) + b$ ，仅需2个系数即可拟合超200个数据点，适用于不同模型、任务及数据集。
早期预测能力：利用前36步（15%训练量）数据拟合曲线，可准确预测Qwen2.5家族后续200步性能，且能通过 $H = 0$ 预测性能上限 $R = - a + b$ 。

（3）参数含义

根据 $\exp(H)$ 可知，系数 $a$ 反映了模型将不确定性即熵转化为下游性能的速率，与模型参数呈对数线性关系。
系数 $b$ 决定了理论上的最大性能，由模型架构和数据决定，大模型（如32B）的 $b$ 值显著高于小模型，表明其潜在推理能力更强。如下图所示，两个参数随着策略模型尺寸增加以对数线性速率变化。
不同RL算法（GRPO、RLOO、PRIME）不影响拟合曲线形式，证实熵-性能关系是模型内在特性，而非算法差异导致。

此外，作者还指出，熵耗尽时的固定上限 $R = - a + b$ 表明，无干预的RL无法突破预训练模型的潜在能力，单纯增加计算量难以提升性能，需主动管理熵以维持探索。

3. 策略熵动态分析

第2节揭示了熵坍缩问题将大大障碍RL对模型性能的提升。为了解决它，需要对策略熵的动态变化有更进一步地理解，即熵何时减少以及熵何时增加。

3.1 softmax策略的熵动态理论推导

核心问题：策略熵在参数更新前后的变化机制，即step k和step k+1间的策略熵之差 $H(\pi_{\theta}^{k+1})-H(\pi_{\theta}^{k})$ 。作者首先考虑了LLM的softmax策略，即策略由以下公式参数化：
$\pi_{\theta}(a | s) = \frac{\exp(z_{s, a})}{\sum_{a' \in \mathcal{A}} \exp(z_{s, a'})}$

其中 $\sim d_{\pi_{\theta}}$ 和 $\sim \pi_{\theta}^{k}(\cdot | s)$ 分别表示状态和动作， $z_{s, a}$ 是给定状态 $s$ 时动作 $a$ 的输出对数几率（logit）。对于softmax策略，利用泰勒展开一阶近似，推导得出熵变化与动作概率的对数 $\log \pi_{\theta}(a|s)$ 和对数几率变化 $\Delta z_{s,a} = z_{s,a}^{k+1} - z_{s,a}^{k}$ 的协方差成反比：
$\Delta H \approx -\mathbb{E}_{s}\left[\text{Cov}_{a \sim \pi_{\theta}^k}( \log \pi_{\theta}^k(a|s), \Delta z_{s,a} )\right]$

物理意义：高概率动作的对数几率增加（正协方差）会降低熵，低概率动作的对数几率增加（负协方差）会提升熵。

3.2 策略梯度下的熵动态变化机制

策略梯度类算法（如REINFORCE、GRPO）：

对数几率变化与动作优势 $A (s, a)$ 成正比： $\Delta z_{s,a} = \eta \cdot \pi_{\theta}(a|s) \cdot A(s,a)$ （ $\eta$ 为学习率）。
熵变化公式：
$\Delta H \approx -\eta \cdot \mathbb{E}_{s}\left[\text{Cov}_{a \sim \pi_{\theta}^k}( \log \pi_{\theta}^k(a|s), \pi_{\theta}^k(a|s) \cdot A(s,a) )\right]$

结论：高概率且高优势的动作（如训练初期的“自信”动作）会显著降低熵。

自然策略梯度（Natural Policy Gradient）：

对数几率变化直接与优势成正比： $\Delta z_{s,a} = \eta \cdot A(s,a)$ 。
熵变化公式：
$\Delta H \approx -\eta \cdot \mathbb{E}_{s}\left[\text{Cov}_{a \sim \pi_{\theta}^k}( \log \pi_{\theta}^k(a|s), A(s,a) )\right]$

结论：动作优势与概率的正相关性仍主导熵下降。

3.3 实验验证

采用GRPO算法在Qwen2.5-7B上进行带策略梯度的在线学习，计算每个prompt的组内协方差，并按准确率划分难度组（低准确率=高难度）。

实验结论：
在这里插入图片描述

协方差与熵变化的一致性：
- 训练初期协方差显著为正，且与熵下降速率高度吻合，验证了“正协方差导致熵单调下降”的理论。
- 协方差随训练逐渐降低但保持正值，解释了熵持续缓慢下降的现象。
难度依赖性：
- 简单任务（高准确率）的协方差更高，模型对高概率动作的优势估计更一致，加速熵坍缩；
- 困难任务（低准确率）的协方差较低，模型不确定性更高，熵下降更缓慢。

3.4 核心结论

熵坍缩的本质原因：RL算法对高概率高优势动作的偏好（正协方差主导）导致策略分布快速集中，探索能力丧失。
结论：若要提升熵，需抑制高协方差动作的更新（如减少其梯度贡献），或鼓励低概率高优势动作（负协方差）的探索。

4. 熵控制方法：协方差正则化

4.1 熵正则化方法分析

传统RL中常用熵损失（Entropy Loss）或KL惩罚（KL Penalty）维持策略熵，但在LLMs的RL场景中效果有限。

实验设计：

熵损失：在损失函数中添加熵项 $L_{\text{ent}} = L - \alpha \mathcal{H}(\pi_{\theta})$ ，其中 $\alpha$ 为熵系数。
KL惩罚：在损失函数中引入当前策略与参考策略的KL散度。

实验结论：

熵损失的敏感性：当 $\alpha \leq 0.001$ 时，熵几乎无变化，性能提升有限；当 $\alpha = 0.01$ 时，熵出现“爆炸”式增长，模型陷入随机探索，性能显著下降； $\alpha = 0.005$ 虽能暂时稳定熵，但最终性能未超越基线。
KL惩罚的局限性：KL虽能维持熵值，但导致策略偏离有效路径，性能普遍低于基线。

因此，传统熵正则化方法在LLMs中面临“高敏感性”和“低效探索”问题，原因在于其未针对LLMs中高协方差tokens主导熵坍缩的机制设计，而是全局干预策略分布，导致探索与利用的平衡失效。

4.2 抑制高协方差Token

根据第三章理论，策略熵坍缩主要由高协方差tokens（即高概率且高优势的动作）驱动。因此，控制熵的关键在于选择性抑制此类tokens的更新，而非全局调整策略分布。

少数tokens主导协方差：实验表明，仅0.02%的高协方差tokens的平均协方差值是整体平均值的1800倍以上。这些tokens的更新直接导致熵快速下降，抑制其梯度或施加惩罚可有效减缓熵坍缩。

4.2.1 Clip-Cov（协方差裁剪）

原理：随机选择一小部分高协方差tokens，切断其与策略梯度的连接，阻止其对参数更新的贡献。
实现步骤：
- 计算每个token的协方差
  $\text{Cov}(y_i) = \left(\log \pi_{\theta}(y_i) - \text{mean}(\log \pi_{\theta}(y_j))\right) \cdot \left(A(y_i) - \text{mean}(A(y_j))\right)$
- 设定协方差阈值（如高于平均500倍），随机选取 $\cdot N$ 个高协方差tokens（ $\times 10^{-4}$ ），即集合 $I_{clip}$
- 在梯度计算中剔除这些tokens的贡献（ $\text{detach}$ 操作），仅更新剩余tokens。
公式化：
$L_{\text{Clip-Cov}}(\theta) = \begin{cases} \mathbb{E}_t\left[\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t\right], & t \notin I_{\text{clip}} \\ 0, & t \in I_{\text{clip}} \end{cases}$
其中 $I_{\text{clip}}$ 为选中的高协方差token索引集。

4.2.2 KL-Cov（协方差KL惩罚）

原理：对高协方差tokens施加KL散度惩罚，强制其策略分布接近旧策略，抑制过度自信。
实现步骤：
- 按协方差排序，选取前 $\cdot N$ 个tokens。对于7B模型， $\times 10^{-3}$ ；对于32B模型， $\times 10^{-4}$ 。
- 在损失函数中对这些tokens添加KL惩罚项：
  $L_{\text{KL-Cov}}(\theta) = \begin{cases} \mathbb{E}_t\left[\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t\right], & t \notin I_{\text{KL}} \\ \mathbb{E}_t\left[\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t - \beta \cdot \text{KL}(\pi_{\theta_{\text{old}}} || \pi_{\theta})\right], & t \in I_{\text{KL}} \end{cases}$
  其中 $\beta = 1$ 为惩罚系数， $I_{\text{KL}}$ 为高协方差token索引集。

4.3 实验

主要基于Qwen2.5（7B和32B），以及数学推理任务（如AIME 2024/2025、MATH500等）进行实验。
在这里插入图片描述

基线GRPO的策略熵在训练初期骤降至近0，而Clip-Cov/KL-Cov使熵值始终维持在基线的10倍以上，且曲线更稳定，避免了传统方法（如Clip-higher）的后期波动或坍缩。
Qwen2.5-7B平均准确率提升2%（AIME24从21.2%→22.1%），32B提升6.4%（AIME24从21.8%→36.8%），尤其在高难度任务（如OlympiadBench）中优势明显。
模型规模与干预效果的正相关性： 32B模型的性能提升幅度远高于7B，揭示大模型对高协方差tokens的依赖更强，熵控制对释放其推理潜力更关键。
定性分析显示，KL-Cov模型生成的响应包含更多中间推理步骤，避免了基线模型的简单答案过拟合倾向，证明熵控制可促进探索更复杂的解题策略。
在相同训练步数下，Clip-Cov/KL-Cov通过维持有效探索，使大模型的计算资源利用率显著高于基线，为RL的规模化训练提供了效率优化路径。

5. 总结

这篇文章针对大语言模型在RL推理中面临的策略熵坍缩问题展开研究。在RL训练中，无干预时策略熵会在初期急剧下降至近0，导致模型探索能力丧失、性能提前饱和，且性能与熵呈可预测的指数关系 $\exp H + b$ ，熵耗尽时性能达到上限。传统熵正则化方法（如熵损失、KL惩罚）因全局干预且未针对核心机制，效果有限且超参数敏感。

通过理论分析，作者发现策略熵变化由动作概率与对数几率变化的协方差驱动，高概率高优势动作的正协方差主导熵单调下降。基于此，提出Clip-Cov（裁剪高协方差tokens梯度）和KL-Cov（对高协方差tokens施加KL惩罚）两种方法，精准抑制少数主导熵坍缩的tokens更新。实验表明，两种方法可使策略熵维持在基线10倍以上，Qwen2.5-32B在数学推理任务中准确率提升6.4%，高难度任务AIME24提升15%，验证了方法的有效性。