微软开源的rStar2-Agent如何用14B参数超越671B的DeepSeek-R1？

前言

一、从“纸上谈兵”到“动手实验”：智能体强化学习的威力

二、GRPO-RoC算法：在“嘈杂”的环境中学会优雅

三、反直觉的训练配方：“先学用锤子，再学造房子”

3.1 第一步：“非推理”监督微调 (Non-Reasoning SFT)

3.2 第二步：多阶段强化学习“闯关”

四、结果：更短的推理，更高的准确率，更强的泛化

结语：AI进化的新路径

🎬 攻城狮7号：个人主页

🔥 个人专栏:《AI前沿技术要闻》

⛺️ 君子慎独!

🌈 大家好，欢迎来访我的博客！
⛳️ 此篇文章主要介绍微软开源的rStar2-Agent
📚 本期文章收录在《AI前沿技术要闻》，大家有兴趣可以自行查看！
⛺️ 欢迎各位 ✔️ 点赞 👍 收藏 ⭐留言 📝！

前言

AI领域曾奉“大力出奇迹”为圭臬：模型参数从百亿卷至万亿，“长思维链”成提升智能的主流路径，OpenAI o系列、DeepSeek-R1等顶尖模型沿此成功。

但这条路渐显天花板：竞赛级数学题中，模型即便写万字解题步骤，也可能因一步小错满盘皆输，且难自纠。

此时微软研究院的`rStar2-Agent`研究投下“深水炸弹”，提出颠覆性观点：让AI“更聪明思考”，远比“更长时间思考”重要。

他们用140亿（14B）参数模型，在多难度基准上媲美甚至超越6710亿（671B）参数的DeepSeek-R1，且仅需64块GPU训练一周。

这不仅是“四两拨千斤”的技术胜利，更可能预示AI推理范式革命。今天我们就解析，rStar2-Agent如何让小模型学会“更聪明思考”。

一、从“纸上谈兵”到“动手实验”：智能体强化学习的威力

传统思维链（CoT）模型，像一个只会在纸上演算的学生。他可以写下长篇大论的推理过程，但缺乏与现实世界互动的能力。他无法使用计算器来验证中间结果，也无法从错误中获得即时反馈。

`rStar2-Agent` 的核心思想，就是将这个学生，变成一个能够动手做实验的“智能体”（Agent）。它不再局限于自身的“内心独白”，而是被赋予了与外部环境——一个Python编程和解释器——进行交互的能力。

这意味着，模型在解决问题时，可以：

（1）提出假设：构思一个解题步骤。

（2）动手验证：将这个步骤写成Python代码，并让解释器运行。

（3）观察反馈：如果代码运行成功，它会得到一个确切的结果；如果代码有误，它会收到一条明确的错误信息。

（4）学习调整：根据这些来自环境的、真实的反馈，来调整自己的下一步策略。

这种“提出假设-动手验证-观察反馈-学习调整”的闭环，就是所谓的智能体强化学习（Agentic Reinforcement Learning）。它让模型从一个封闭的“思考者”，变成了一个开放的“探索者”。

二、GRPO-RoC算法：在“嘈杂”的环境中学会优雅

让AI使用工具听起来很美，但实践中却有一个巨大的“坑”——环境噪声。

想象一下，一个新手程序员在解题，他写的代码可能充满语法错误和逻辑bug。Python解释器会不断返回各种错误信息。在传统的强化学习中，通常只看最终答案是否正确来给予奖励。这就导致了一个严重的问题：一个模型可能写了九次错误代码，第十次歪打正着蒙对了答案，系统依然会给它满分奖励。

这种机制，无异于在鼓励一种混乱、低效、充满“脏动作”的解题方式。模型学会的不是严谨的推理，而是“只要能蒙对，过程不重要”。

为了解决这个核心难题，微软的研究者们提出了一种极其精妙的算法——GRPO-RoC（带有正确重采样的组相对策略优化）。这个名字很长，但其核心思想——“正确重采样”（Resample-on-Correct, RoC）——却异常简洁和高效。

我们可以把它理解为一位高明的“AI教练”，它的教学方法是：

（1）超量练习与分类：首先，让模型对一个问题，生成远超常规数量的解题尝试（比如32次）。然后，将这些尝试根据最终答案的对错，分为“成功组”和“失败组”。

（2）从失败中学习“禁区”：对于“失败组”，教练会随机抽取一部分“错题案例”，让模型学习，告诉它“这些路是走不通的”，从而避免再犯。

（3）从成功中学习“品味”：这是最关键的一步！对于“成功组”，教练变得异常“挑剔”。它不会把所有答对的都当成范本，而是会根据解题过程的“质量”进行筛选。质量如何衡量？主要看两点：工具使用错误率和格式规范性。那些代码写得干净利落、工具用得精准、格式完美的“高分作文”，会有更大概率被选中，作为正面榜样来指导模型的学习。

这个算法的精髓在于，它没有去设计复杂的规则来惩罚每一种错误（这很容易被模型“钻空子”），而是通过在数据层面进行“非对称”的筛选，巧妙地提升了学习材料的质量。

它告诉模型：“不仅要答对，更要答得漂亮。”

通过这种方式，`rStar2-Agent` 不仅学会了如何解决数学问题，更在潜移默化中，成了一名更优秀的“程序员”和一个更高效的“工具使用者”。