2025_NIPS_Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning

文章主要内容总结

该研究从令牌熵模式视角探索强化学习(RLVR)提升大语言模型(LLM)推理能力的机制,核心发现如下:

  1. 思维链(CoT)中仅少数令牌(约20%)具有高熵,这类“分叉令牌”是决定推理路径的关键节点,低熵令牌主要完成语句衔接。
  2. RLVR训练中,模型基本保留基础模型的熵模式,主要调整高熵令牌的熵值,低熵令牌熵值波动极小。
  3. 仅针对Top20%高熵令牌进行策略梯度更新,在Qwen3系列模型上实现与全令牌训练相当或更优的性能,且模型规模越大效果越显著(32B模型在AIME基准上提升超11分),而仅训练低熵令牌会导致性能大幅下降。
  4. 20%高熵令牌的比例是探索与性能的最优平衡,偏离该比例会降低训练有效性,这一发现超越了传统80/20法则。

创新点

  1. 首次从令牌熵视角解析RLVR机制,明确高熵少数令牌对推理性能的核心驱动作用。
  2. 提出仅更新高熵令牌梯度的优化方案,实现更高效的RLVR训练,且验证了其随模型规模的强扩展性。
  3. 量化证明高熵令牌的“分叉”功能,通过调节解码温度实验,证实维持高熵对推理性能的重要性。
  4. 揭示RLVR与监督微调(SFT)的本质差异:RLVR保留高熵令牌灵活性以实现泛化,而SFT降低熵值导致记忆化。

Abstract 翻译

带可验证奖励的强化学习(RLVR)已成为提升大语言模型(LLM)推理能力的强大方法,但其内在机制尚未被充分理解。本研究通过令牌熵模式这一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值