文章主要内容总结
该研究从令牌熵模式视角探索强化学习(RLVR)提升大语言模型(LLM)推理能力的机制,核心发现如下:
- 思维链(CoT)中仅少数令牌(约20%)具有高熵,这类“分叉令牌”是决定推理路径的关键节点,低熵令牌主要完成语句衔接。
- RLVR训练中,模型基本保留基础模型的熵模式,主要调整高熵令牌的熵值,低熵令牌熵值波动极小。
- 仅针对Top20%高熵令牌进行策略梯度更新,在Qwen3系列模型上实现与全令牌训练相当或更优的性能,且模型规模越大效果越显著(32B模型在AIME基准上提升超11分),而仅训练低熵令牌会导致性能大幅下降。
- 20%高熵令牌的比例是探索与性能的最优平衡,偏离该比例会降低训练有效性,这一发现超越了传统80/20法则。
创新点
- 首次从令牌熵视角解析RLVR机制,明确高熵少数令牌对推理性能的核心驱动作用。
- 提出仅更新高熵令牌梯度的优化方案,实现更高效的RLVR训练,且验证了其随模型规模的强扩展性。
- 量化证明高熵令牌的“分叉”功能,通过调节解码温度实验,证实维持高熵对推理性能的重要性。
- 揭示RLVR与监督微调(SFT)的本质差异:RLVR保留高熵令牌灵活性以实现泛化,而SFT降低熵值导致记忆化。
Abstract 翻译
带可验证奖励的强化学习(RLVR)已成为提升大语言模型(LLM)推理能力的强大方法,但其内在机制尚未被充分理解。本研究通过令牌熵模式这一

订阅专栏 解锁全文
986

被折叠的 条评论
为什么被折叠?



