【AI大模型】RL反常识研究，直接给LLM喂答案比提供详细步骤更有用！-优快云博客

本文链接：https://blog.youkuaiyun.com/Android23333/article/details/149277609

前言

❝

一句话概括：大模型学数学，原来强化学习不是教它刷题，而是教它怎么“开窍”和查资料，给它标准答案的中间步骤有时还不如让它自己瞎琢磨。（原论文题目见文末，点击阅读原文可直接跳转至原文链接，Published on arxiv on 05 Jun 2025 by University of Wisconsin-Madison, Salesforce AI Research）

亲爱的读者们，沈公子的公众号agent🤖和base model近期取得了重大突破，今后公众号文章行文会更流畅，处理公式和符号也完全达到人类专家水准，会大幅减少出现错乱和显示异常的情况，提升阅读体验。enjoying 😃

第一阶段：识别核心概念

论文的motivation分析

当前，我们都知道用强化学习（Reinforcement Learning, RL）来“训练”大语言模型（LLM）进行数学推理，效果非常好，模型在各种数学竞赛榜单上刷出了惊人的高分。但是，这里存在一个“知其然，而不知其所以然”的问题。

论文作者的动机正是源于此。他们发现，大部分研究只是简单地报告模型在某个数据集上的准确率提升了多少，比如从50%提升到了80%。这就像我们看到一个学生成绩变好了，但我们并不知道他究竟是解题思路变清晰了、基础知识更扎实了，还是审题能力变强了。这种只看最终分数的“黑箱式”评估，无法告诉我们RL到底在哪个环节、以何种方式增强了模型的推理能力。

因此，这篇论文的核心动机是：打开强化学习提升LLM推理能力的“黑箱”，精细化地、可度量地分析出RL到底在哪些具体能力维度上带来了提升，以及这些提升是如何发生的。

论文主要贡献点分析

提出SPARKLE分析框架：这是论文最核心的贡献。它不再满足于单一的准确率指标，而是从三个关键维度来“解剖”模型的推理过程：
- 规划遵循与执行（Plan-following and execution）：模型是擅长自己规划解题步骤，还是更擅长执行别人给定的计划？
- 知识运用（Knowledge utilization）：模型是自己记忆的知识库不全，还是有了知识（比如公式、定理）却不知道如何应用？
- 问题分解（Problem decomposition）：模型能将一个复杂的大问题拆解成一系列小问题，并逐一解决吗？
构建SPARKLE基准测试集：为了让SPARKLE框架能落地，作者们对现有的数学问题数据集进行了“增强”，为每个问题都人工标注了上述三个维度的辅助信息：高层解题计划、所需的背景知识、以及分解后的子问题序列。这创建了一个独一无二的、可用于精细化分析的“靶场”。
提出多阶段RL训练策略：基于对问题难度的分析，作者设计了一种更高效的RL训练流程。它首先在大量不同难度的问题上进行普适性训练（第一阶段），然后在精选出的“难题”上进行专项攻坚训练（第二阶段），并且在训练难题时，会给模型一些“提示”（部分解题步骤），以帮助模型从这些难题中有效学习。
支撑创新的关键技术/方法：
- SPARKLE框架：通过设计三种不同的测试模式（给计划/不给计划，给知识/不给知识，解完整问题/解子问题）来隔离和评估模型在三个维度上的能力。
- 多阶段RL训练：采用了GRPO （Group Relative Policy Optimization） 算法，并结合了课程学习（Curriculum Learning） 的思想，先易后难，并对难题进行“增强”处理（提供部分解题方案作为上下文）。
显著性的结果与意义：这篇论文最重要的结果是一些反直觉但极具启发性的发现，这些发现比单纯的SOTA（State-of-the-Art）分数更有价值：
- “好心办坏事”的外部计划：对于基础模型而言，给它一个详细的解题计划，反而会降低它的表现。这表明模型有自己的一套“思维定式”，强行让它遵循外部逻辑会适得其反。而经过RL训练的模型则能更好地适应外部计划，甚至从中受益，展现出更高的“灵活性”。
- RL的核心是“学会如何学习”：RL训练后的模型，在得到外部知识（如公式）时，性能提升非常显著。这说明RL不仅是让模型“记住”更多知识，更是教会了模型一种“如何整合并运用新信息”的能力。
- “眼高手低”的子问题解决能力：即使是强大的RL模型，虽然能解决复杂的整体问题，但在被要求按部就班地解决所有分解后的子问题时，成功率却急剧下降。这揭示了当前模型推理能力的瓶颈：它们可能依赖一种“直觉式”的整体性推理，而非严谨的、步步为营的逻辑推演。

理解难点识别

核心概念：SPARKLE分析框架的设计思想是理解整篇论文的钥匙。读者需要明白为什么这三个轴（规划、知识、分解）是关键，以及作者是如何通过实验设计来独立评估每一个轴的。
最具挑战性的部分：最具挑战性的不是某个复杂的数学公式，而是理解实验设计背后的逻辑。例如，如何理解“给模型提供计划反而性能下降”这一现象背后的含义，并将其与RL的作用联系起来。此外，GRPO算法作为训练的核心，其目标函数也需要一定的理解。
需重点解释的核心概念：我们将重点解释 SPARKLE框架的三个分析维度，并通过一个生动的比喻来阐释它们。同时，我们将深入解析GRPO算法，因为它是在幕后驱动模型进化的“引擎”。

概念依赖关系

切入点：最佳的切入点是解释为什么需要SPARKLE框架（即传统准确率评估的局限性）。
依赖关系：
- 理解了SPARKLE框架，才能明白论文中各种图表（如Figure 3, 4, 5）的意义。
- SPARKLE框架揭示了模型的特定弱点（如知识整合、难题处理）。
- 这些发现又启发了多阶段RL训练策略的设计，该策略旨在有针对性地解决这些弱点。
- GRPO算法是实现这个训练策略的具体技术手段。因此，我们的解释顺序将是：SPARKLE框架 -> GRPO算法 -> 多阶段训练流程。

第二阶段：深入解释核心概念

设计生活化比喻

想象一下，我们正在训练一位实习厨师（Base LLM），目标是让他成长为一位能独立制作顶级法式大餐（如“惠灵顿牛排”）的米其林大厨（RL-tuned LLM）。而我们，就是那位经验丰富的烹饪教练（RL训练过程）。

传统的评估方法就像是只品尝最终的成品牛排，然后打一个“好吃”或“不好吃”的分数（对应准确率）。但作为教练，我们想知道实习厨师到底在哪方面有欠缺，以便因材施教。

这时，我们就引入了 SPARKLE烹饪分析法，从三个维度来“解剖”他的厨艺：

规划与执行能力（Plan-following）：
- 测试A：给他一张非常详细的菜谱（外部计划），让他严格照做。
- 测试B：只告诉他要做惠灵顿牛排，让他凭借自己的理解和记忆去发挥（内部计划）。
- 对比分析：如果他照着菜谱反而手忙脚乱，成品更差，说明他还不适应或者不理解菜谱的逻辑，更习惯于自己那套不成熟的流程。如果他能很好地执行菜谱，说明他执行力强但缺乏规划能力。
知识运用能力（Knowledge utilization）：
- 在旁边放一本《烹饪术语大全》（外部知识），里面解释了什么是“美拉德反应”、“酥皮起酥原理”等。
- 测试：观察他在烹饪时，是否会主动查阅、理解并应用这些知识来改进自己的操作。比如，他是否理解了要高温快煎才能锁住肉汁（美拉德反应）。
- 分析：如果他有了这本书但做出来的牛排还是很柴，说明他知识整合能力差。如果他能用好这本书，说明他“会学习”。
问题分解能力（Problem decomposition）：
- 我们将制作惠灵ton牛排这道大菜，分解成几个独立的子任务（Subproblems）：1）准备蘑菇酱，2）煎牛里脊，3）擀酥皮，4）包裹并烘烤。
- 测试：让他分别完成这四个子任务，我们对每个半成品都进行品尝和打分。
- 分析：可能他蘑菇酱炒得完美，牛排也煎得恰到好处，但最后包裹时酥皮破了，或者烘烤的火候不对。这说明他单个步骤可能没问题，但将它们无缝衔接并完成最终目标的能力有欠缺。

建立比喻与实际技术的对应关系

比喻中的元素	实际技术概念	合理性解释
实习厨师	基础大语言模型 (Base LLM)	初始状态，能力有限，需要训练和指导。
米其林大厨	经RL微调的模型 (RL-tuned LLM)	经过大量实践和反馈，能力得到显著提升。
烹饪教练	强化学习 (RL) 训练过程	通过奖励（好吃）和惩罚（难吃）来指导模型优化。
最终菜品味道	最终答案的准确率	这是最直接、但也是最粗糙的评价指标。
详细菜谱	外部规划 (Planning Skeleton)	提供了解决问题的宏观步骤。
《烹饪术语大全》	外部知识 (Knowledge Components)	提供了解决问题所需的定理、公式等背景知识。
分步制作任务	子问题链 (Chain of Subproblems)	将一个复杂问题分解成多个可独立解决的小问题。
教练的指导方法	GRPO 算法	这是教练用来指导厨师进步的具体、量化的方法论。

深入技术细节：GRPO算法

现在，我们来看看“烹饪教练”具体是如何指导“实习厨师”的。他用的方法就是GRPO。教练会让厨师对一个菜品（一个数学问题）做好几次尝试（生成多个解法），然后根据这些尝试的好坏来调整教学策略。

其核心是优化以下目标函数：

其中，的具体形式为：

这公式看起来吓人，但用我们的比喻和自然语言替换一下就清晰多了：

符号替换版：对模型进行优化的总目标 = 综合考虑所有问题和所有尝试 （ 单个问题上所有尝试的平均提升 ）

单个问题上所有尝试的平均提升` = `对每一次尝试的每一个步骤进行评估` （ `取以下两个值中较小的一个` （ `“新模型的倾向性” × “这个步骤的优势”`, `“被限制在小范围内的倾向性” × “这个步骤的优势”` ）） `-``防止模型跑偏的惩罚项

逐一解释：

π_θ(...) / π_{θ_old}(...) (新模型的倾向性)：
- 数学含义：新模型 π_θ 生成某个步骤的概率，与旧模型生成该步骤的概率之比。
- 厨师比喻：教练观察到实习厨师在某次尝试中“先放盐后放油”，如果这个做法带来了很好的效果，教练希望新一代的你（新模型）更倾向于“先放盐后放油”（概率比值 > 1）。
Â_{i,t} (这个步骤的优势)：
- 数学含义：Advantage estimate，衡量在当前状态下，采取某个动作（生成某个词）比平均水平好多少。如果一个解法最终得分很高，那么它包含的每个步骤都会获得正向的“优势” credit。
- 厨师比喻：对于一次成功的烹饪，其中“高温快煎”这个步骤被认为是关键。那么“高温快煎”这个操作就获得了很高的优势值。教练会重点表扬和强化这个行为。
clip(...) (被限制在小范围内的倾向性)：
- 数学含义：将概率比值限制在这个小区间内。
- 厨师比喻：教练虽然鼓励创新，但也怕实习厨师步子迈得太大扯着蛋。如果厨师某次尝试突然从法餐跳到分子料理，即使效果惊艳，教练也会说：“很好，但我们先别变得那么激进，慢慢来。” 这可以防止模型更新过快导致性能崩溃。min(...) 的作用就是采取保守策略，当你想大步前进时，clip项会把你拉回来，让你走得更稳。
β * D_KL[...] (防止模型跑偏的惩罚项)：
- 数学含义：KL散度，衡量新模型 π_θ 的整体策略与一个可靠的参考模型（通常是训练前的SFT模型）之间的差异。差异越大，惩罚越大。
- 厨师比喻：教练允许厨师发展自己的风格，但不能完全脱离法餐的基本法度。这个惩罚项就像是在说：“你可以自由发挥，但你做的菜必须还得能被认出是惠灵顿牛排，不能变成一个完全不相干的东西。”

将技术细节与比喻相互映射

技术步骤在比喻中的体现：整个GRPO过程，就像教练（RL算法）让厨师（LLM）针对一个菜谱（问题）做次尝试。然后，教练品尝每一份成品（计算Reward），并分析出哪些步骤是“神来之- 比喻如何帮助理解技术细节：比喻将抽象的数学符号，如概率比、优势函数、KL散度，转化为了具体的、有动机的行为，如“鼓励好操作”、“防止跑偏”、“保持基本功”。这使得算法背后的设计哲学变得直观易懂。

总结

核心联系：SPARKLE框架就像一套精密的诊断工具，用来找出实习厨师的“能力短板”；而GRPO算法则是教练手中那套行之有效的教学方法，用来弥补这些短板，并最终将实习厨师培养成米其林大厨。
关键数学原理总结：GRPO的精髓在于在鼓励探索（基于优势 Advantage）和保持稳定（基于 clip 和 KL 散度）之间找到一个最佳平衡点。它通过比较一组尝试的好坏来产生学习信号，这比单一样本学习更稳定、更高效。

第三阶段：详细说明流程步骤

流程一：使用SPARKLE框架进行模型能力剖析

这个流程的目标是评估一个已经存在的LLM。首先，向模型输入一个来自SPARKLE基准测试集的问题（包含问题本身、标准答案、规划、知识、子问题）。

处理流程：

基准测试（无辅助信息）输入仅有问题描述，让LLM生成解题思路和最终答案，得到模型的原始解题性能作为基线。
轴1评估：规划遵循与执行能力输入问题描述和规划骨架，让LLM在指引下解决问题。对比基线，若性能提升则执行能力强，若下降则外部计划有干扰。
轴2评估：知识运用能力输入问题描述和相关知识点。对比基线，若性能大幅提升，则瓶颈在知识，否则在于应用能力。
轴3评估：问题分解能力这是一个序贯过程，逐一输入子问题及其前序答案，让模型逐步求解。最终计算子问题成功率（SSR）。对比基线，若SSR远低于整体解决率，说明模型不擅长分步式逻辑推理。

最终输出：一个关于该LLM在规划、知识、分解三个维度上的详细能力画像。

流程二：多阶段RL训练流程

这个流程的目标是训练出一个更强大的推理模型。

输入：一个基础LLM（如Qwen-2.5-Math-7B），一个包含40K数学问题的大型训练集，一个包含5.7K难题的增强训练集。
处理流程：分为两个阶段。
- 阶段一：通用能力RL微调：在40K通用问题上进行训练。对每个问题，模型生成个解法，通过奖励函数打分，并使用GRPO算法更新模型。此阶段旨在建立强大的基础推理能力，输出模型 SparkleRL-Stage 1。
- 阶段二：难题攻坚RL微调：在5.7K难题上继续训练 SparkleRL-Stage 1 模型。这些难题被增强处理，即输入时会随机附带0到4个解题“提示块”。训练过程与阶段一类似，但会用更大的KL散度惩罚来防止模型“忘记”通用能力。此阶段旨在特别强化对高难度问题的解决能力，输出最终模型 SparkleRL-Stage 2-aug。

第四阶段：实验设计与验证分析

主实验设计解读：核心论点的验证

核心主张验证：论文的核心主张是：1）他们提出的多阶段RL训练是有效的，能显著提升模型推理能力；2）专门针对难题的增强训练（Stage 2-aug）能带来额外的性能提升。

实验设计分析：

数据集：作者选择了 AIME24, AMC23, MATH500, GSM8K, OlympiadBench。这个选择非常合理，因为这些数据集覆盖了从小学到国际奥赛的完整难度梯度，这对于验证关于“难题”的假设至关重要。
评价指标：Avg@8。即模型生成8个答案，只要其中有一个是正确的，就算通过。这个指标比单次尝试（pass@1）更能衡量模型的核心推理能力，是当前领域的公认标准。
基线方法：实验设置了Qwen-2.5-Math-7B-Base（未经训练）作为外部基线，以及SparkleRL-Stage 1（仅通用训练）作为内部基线。这种设计可以非常清晰地剥离出每个训练阶段带来的具体性能增益。

结果与结论：

Table 1 的结果清晰地支撑了核心主张。SparkleRL-Stage 1 相比 Base 模型在所有数据集上都有巨大提升（平均从35.23%提升到65.01%），证明了通用RL训练的有效性。
更关键的是，SparkleRL-Stage 2-aug 模型在所有模型中取得了最佳的平均性能（67.03%），尤其是在最难的AIME24上达到了50.42%的惊人分数。这直接证明了论文的第二个核心主张：使用带有部分解题提示的难题进行专项训练，可以进一步压榨模型的性能潜力。

消融实验分析：内部组件的贡献

这里的“消融实验”非常巧妙，它是通过SPARKLE框架的三个分析轴来实现的，可以称之为“分析性消融”，即通过控制输入信息，来“消融”模型在某个能力维度上的需求。

消融组件1：自主规划能力 (Figure 3)
- 如何消融：通过向模型提供一个完整的规划骨架，来“移除”模型自己进行宏观规划的需要。
- 结果与证明：实验发现，对于Base模型，提供规划后性能反而普遍下降。这证明了自主规划是其固有推理路径的一部分，外部干扰是有害的。而RL模型性能稳定，说明RL训练出的模型规划能力更灵活、更强大，能兼容甚至利用外部规划。这定量地证明了RL在“规划灵活性”上的巨大贡献。
消融组件2：知识检索能力 (Figure 4)
- 如何消融：通过向模型提供解题所需的全部知识点，来“移除”模型自己回忆或检索知识的需要。
- 结果与证明：Base模型在获得知识后性能依然下降（平均-5.4%），而RL模型则性能显著提升（平均+4.2%）。这个鲜明的对比有力地证明了，RL训练的关键贡献之一，是赋予了模型整合和应用外部知识的能力，而不仅仅是记忆知识。这个模块（知识整合能力）是RL模型独有的、不可替代的优势。
消融组件3：整体推理能力 vs. 分步推理 (Figure 5)
- 如何消融：将问题分解成子问题链，迫使模型一步一步解决，从而“移除”其进行跳跃式、整体性推理的可能性。
- 结果与证明：所有模型（包括最强的RL模型）在解决所有子问题上的成功率（SSR）都远低于解决原始问题的成功率。这证明了模型的成功并非建立在完美的、可分解的逻辑链上。这揭示了模型能力的一个重要局限性，证明了模型的“高层整合推理”是一个不可或缺的、但目前还很神秘的组件。

深度/创新性实验剖析：洞察方法的内在特性

最巧妙的实验：按难度分层的性能增益分析 (Figure 6)

实验目的：这个实验旨在回答一个更深层次的问题：提供“规划”和“知识”这两种帮助，在哪种难度的问题上最有效？这能揭示模型在不同挑战水平下的核心瓶颈。
实验设计：作者将测试集按难度分为10个等级。然后，对每个等级，分别计算提供“规划”和“知识”后，相较于无帮助时的性能变化（pass@1的增益或损失）。这就像对不同水平的病人使用两种药物，观察疗效。
实验结论与价值：
- 规划的影响（Figure 6a）：提供规划的帮助（或伤害）与问题难度关系不大，曲线比较平坦。
- 知识的影响（Figure 6b）：提供知识的帮助随着问题难度的增加而急剧增大。在难度为10的问题上，给RL模型提供知识能带来高达100%的性能增益！
- 深刻洞见：这个结果揭示了一个至关重要的内在特性：对于简单问题，模型可能什么都知道；但对于真正困难的问题，模型的瓶颈不是“不知道怎么做（规划）”，而是“缺少必要的知识”。这个发现对于未来的研究方向有极强的指导意义，例如，对于难题，与其优化模型的规划能力，不如为其配备一个强大的知识检索系统（如RAG）来得更有效。这个实验堪称神来之- 深刻洞见：这个结果揭示了一个至关重要的内在特性：对于简单问题，模型可能什么都知道；但对于真正困难的问题，模型的瓶颈不是“不知道怎么做（规划）”，而是“缺少必要的知识”。这个发现对于未来的研究方向有极强的指导意义，例如，对于难题，与其优化模型的规划能力，不如为其配备一个强大的知识检索系统（如RAG）来得更有效。这个实验堪称神来之笔，它将论文的分析从“是什么”提升到了“为什么”和“该怎么办”的层面。