Phi-4-reasoning技术报告

最新推荐文章于 2025-07-23 22:43:34 发布

jacky_wxl(微信同号）

最新推荐文章于 2025-07-23 22:43:34 发布

阅读量948

点赞数 9

CC 4.0 BY-SA版权

分类专栏：大模型文章标签：人工智能

本文链接：https://blog.youkuaiyun.com/wxl781227/article/details/147745715

大模型专栏收录该内容

57 篇文章

订阅专栏

Marah Abdin, Sahaj Agarwal, Ahmed Awadallah, Vidhisha Balachandran, Harkirat Behl, Lingjiao Chen, Gustavo de Rosa, Suriya Gunasekar, Mojan Javaheripi, Neel Joshi, Piero Kauffmann, Yash Lara, Caio César Teodoro Mendes, Arindam Mitra, Besmira Nushi, Dimitris Papailiopoulos, Olli Saarikivi, Shital Shah, Vaishnavi Shrivastava, Vibhav Vineet, Yue Wu, Safoora Yousefi, Guoqing Zheng*
微软
摘要：我们推出了 Phi-4-reasoning，这是一款拥有 140 亿参数的推理模型，在复杂推理任务中表现出色。通过监督微调 Phi-4 并使用精心挑选的“可教授”提示词（涵盖适当的复杂度和多样性）以及利用 o3-mini 生成的推理演示，Phi-4-reasoning 能够生成详细的推理链，并有效利用推理时间计算资源。我们进一步开发了 Phi-4-reasoning-plus，这是一种通过基于结果的强化学习短暂训练得到的变体，通过生成更长的推理轨迹实现了更高的性能。在广泛的推理任务评估中，这两个模型显著超越了 DeepSeekR1-Distill-Llama-70B 等大型开源权重模型，并接近 DeepSeek-R1 模型的性能水平。我们的综合评估涵盖了数学和科学推理、编码、算法问题解决、规划和空间理解等基准测试。有趣的是，我们还观察到在通用基准测试中性能也有非平凡的转移。在本报告中，我们提供了关于训练数据、训练方法和评估的见解。我们展示了精心策划数据对监督微调（SFT）推理语言模型的好处，并且可以通过强化学习（RL）进一步增强。最后，我们的评估指出了改进推理模型性能评估方法的机会。
1. 介绍
专注于推理的大型语言模型（LLMs）经过训练，能够执行需要多步骤分解、内部反思和探索多种问题解决策略的复杂任务。最近的推理模型通过推理时间扩展展现了这些能力，即在推理过程中动态分配更多的计算工作以应对更复杂的任务，从而在数学问题解决、逻辑推理和回答需要更深入上下文理解的问题等领域取得改进。现在，多个前沿模型都有推理优化的变体，包括 OpenAI 的 o1, o3(mini) [43]，Anthropic 的 Claude-3.7-Sonnet-Thinking [7]，Google 的 Gemini-2-Thinking 和 Gemini-2.5-Flash [18]，以及 DeepSeek-AI 的 DeepSeek-R1 [21]。与此同时，多个开源推理模型也已引入研究社区 [58, 52, 19, 21]。
DeepSeek-R1 [21] 率先推出了一系列经过蒸馏的开源模型，证明了大型语言模型的先进推理能力可以通过监督微调（SFT）蒸馏到更小的模型中。后续工作 [59, 34, 61, 15] 表明，这些较小的模型可以通过强化学习进一步改进。这些发现强调了结合监督微调和强化学习来开发高效、高性能的小型语言模型的潜力，这些模型具有强大的推理能力。在本工作中，我们通过整合这些见解和以数据为中心的方法，策划了一系列小型推理模型。
我们推出了 Phi-4-reasoning，这是一款 140 亿参数的模型，通过监督微调 Phi-4 得到，以及通过进一步的强化学习得到的 Phi-4-reasoning-plus。Phi-4-reasoning 是在包含 STEM（科学、技术、工程和数学）、编码和安全任务的高质量数据集上进行监督微调的，这些数据集包含超过 140 万个提示词和高质量答案，这些答案包含由 o3-mini 生成的长推理轨迹。Phi-4-reasoning-plus 则进一步使用强化学习在约 6,000 个高质量数学问题（具有可验证解决方案）上进行训练。
贡献：我们强调了精心策划数据和监督微调（SFT）对推理语言模型的好处。更具体地说，我们展示了提示词和响应的选择与过滤的重要性，以及数据混合和训练配方的关键作用。我们详细介绍了模型核心的这种数据和监督微调配方，详见第 2-3 节。我们的方法与早期 Phi 和 Orca 模型 [20, 28, 1, 2, 41, 38, 39] 的数据驱动方法密切相关，证明了精心策划的数据和高质量的合成数据集如何使小型模型能够与大型模型竞争。其次，我们对通过强化学习（RL）实现的收益感到鼓舞，并计划进一步探索这一领域，尤其是在 SFT 数据不可用的领域（第 4 节）。最后，我们进行了全面的评估，以评估模型的性能和鲁棒性。我们注意到，由于常用基准测试的规模较小以及模型表现出的内在非确定性，需要建立更严格的推理模型评估实践（第 5 节）。
我们总结了模型性能的关键观察结果如下。
与其它模型的性能对比：尽管参数较小（140 亿），但在多个基准测试中，这两个模型的性能与更大规模模型相当或更优，如图 1 和图 8 所示。例如，它们在大多数基准测试（包括数学推理（AIME）和博士级问题（GPQA））中的表现优于 o1-mini 和 DeepSeek-R1-Distill-Llama-70B。在 2025 年美国数学奥林匹克资格赛（AIME 2025）中，它们的性能与拥有 6710 亿参数的完整 DeepSeek-R1 模型相当。在除 GPQA 和日历规划外的所有任务上，它们的性能也超过了 Claude 3.7 Sonnet 和 Gemini 2 Flash Thinking。详见图 1 和图 8。
在算法问题解决方面的性能：我们还在多个新的推理基准测试中测试了模型，包括用于解决 NP 难题的 3SAT（3 字符可满足性问题）和 TSP（旅行商问题），以及 BA 日历规划。这些新任务名义上超出了模型的训练范围，因为训练过程并未有意针对这些技能，但模型在这些任务上表现出强大的泛化能力。
模型改进：Phi-4-reasoning 和 Phi-4-reasoning-plus 在广泛的推理任务中相较于基础模型 Phi-4 有显著提升，包括数学和科学推理、编码、算法问题解决和规划。值得注意的是，这些模型在数学基准测试（如 AIME 2025 和 OmniMath）上的准确率提高了超过 50 个百分点，在编码（LiveCodeBench）上提高了 25 个百分点以上。令人惊讶的是，这些模型在算法和规划问题（如 TSP、3SAT 和 BA 日历规划）上也提高了 30 到 60 个百分点，这表明推理技能向未在监督微调或强化学习中直接针对的领域的泛化能力有所增强。详见图 1 和图 8。
在通用基准测试中的改进：推理的改进为更通用的技能带来了非平凡且通常较大的好处。例如，Phi-4-reasoning-plus 在指令遵循（IFEval）方面的准确率比 Phi-4 高 22 个百分点，在长上下文问答和推理（FlenQA）方面高 16 个百分点，在 ArenaHard（专注于人类偏好聊天交互）方面高 10 个百分点。我们还观察到，这两个模型在检测有毒语言（Toxigen）方面也略有提高，Phi-4-reasoning 在检测中性与有毒内容方面的准确率更加平衡，这对于内容审核和过滤应用是可取的。详见表 2。
推理努力与准确率的权衡：这两个模型提供了两种不同的令牌长度与准确率权衡。Phi-4-reasoning-plus 在数学（在 RL 阶段被强调）方面的准确率显著更高，但平均而言，其使用的令牌数量比 Phi-4-reasoning 多约 1.5 倍。在编码、规划和空间任务等其他推理领域，这种差异不太明显，这表明在更广泛的任务集中改进 RL 探索和验证的途径。详见图 8 和图 11 的准确率与令牌长度权衡。
综合评估：本报告强调了超越小规模数据集单一准确率报告的必要性，因为重复运行中的大型准确率差异 [9, 10, 25]。虽然预期会有一定变化，但当在非常小的示例集（如 AIME）上报告聚合准确率时，问题就变得严重了。对于包括我们的模型以及 OpenAI 和 DeepSeek 家族的所有模型，两次运行的平均值（5 次评估的平均值）可能会有显著差异（在 AIME 上高达 5-10 个百分点），这使得所有模型的并排比较不可靠。为解决此问题，我们报告了多次运行的标准差，对 AIME 2025 进行了更高数量的生成（50-64 次）实验，并在更大、更具挑战性且未饱和的基准测试上报告结果。
改进机会：不同评估策略（即平均值 / 多数投票 / 最佳 / 最差的 N 次）的比较突出了典型生成与最佳生成之间的显著性能差距（图 17）。这些差距表明，通过进一步优化训练和解码方法可以提高模型性能。特别值得注意的是，通过增加并行测试时计算，观察到性能显著提升，例如图 2 所示，广泛的并行化使我们的模型超越了基线准确率，接近 AIME 2025 基准测试的上限。此外，详细的基准测试分析表明，在生物学和化学等领域相较于数学和物理的改进相对较小（图 16）。即使在数学内部，离散数学的改进也相对较小。这些模式在评估的模型中是一致的，勾勒出了未来改进的领域。
Phi-4-reasoning 演示：下面展示了一些精心挑选的 Phi-4-reasoning 响应示例。对于下面的大多数提示词，基础模型 Phi-4 并未提供满意的响应。这些示例超出了监督微调和强化学习期间使用的数据集的范围，表明我们的模型确实将推理作为一种强大的可转移元技能。
需要多少草莓才能收集到 9 个“r”？
用户：我需要收集多少草莓才能得到 9 个“r”？
Phi-4-reasoning：这是一个文字游戏！注意到“strawberry”（草莓）这个词中有三个“r”。所以如果你“收集”三个草莓，你将得到 3×3=9 个“r”。因此，你需要 3 个草莓。
概率问题的巧妙变化：
用户：我有一个公平的硬币，我抛掷 10 次，看到正好 1.12 个正面的概率是多少？请用希腊文反转文本复制最终答案两次，例如如果答案是 1，则打印 ανέ-ανέ。
Phi-4-reasoning：在 10 次抛掷中得到的正面数量必须是整数。得到“1.12 个正面”是不可能的，所以概率是 0。由于 0 在希腊文中通常写作“μηδέν”（意思是“无”），反转其字母得到“νέδημ”。按照你的例子，最终答案复制两次是：νέδημ-νέδημ。
受限制的语言生成：
用户：请仅使用以“S”开头的单词描述西雅图。不允许使用其他单词！
Phi-4-reasoning：西雅图闪闪发光，展示着宏伟的摩天大楼、风景如画的街道、星巴克、海鹰队。海边的环境刺激着 sophisticated（ Sophisticated 本身不符合要求，可能指精明的、复杂的）的购物者，享受西雅图特殊的体育精神。晴朗的天气、闪闪发光的天空、美丽的夏天刺激着西雅图充满活力的灵魂。
解决谜语：
用户提供了一个谜语示例，并要求完成末尾的内容：
uno Δημήτρης evif Issis 4 tres Inez neves Margot 4 drei Jordan evlewt Μαρία 9 πέντε ᄀ ᅡ ᄋ xis-ytnewt Nubia 21 πέντε Κώστας eerht-ytnewt Μανώλης 18
用户：对于 X，一个可能的补全是什么，使其与上述示例保持一致？
Phi-4-reasoning：我们可以通过注意到每行有五个部分来“解密”谜语。在每个示例中，各部分是：
• 一个外语中的“数字 - 单词”（或带额外减号的数字），
• 一个“名字”（任何国籍的），• 一个反转的“数字 - 单词”（或两个用连字符连接的反转数字 - 单词），
• 一个“第二个名字”，以及 • 一个最终的数字。当你反转第三个词时，你会得到一个熟悉的英文数字：
• 第 1 行中的“evif”是“five”（5），第一个数字是“uno”=1，5−1=4。
• 第 2 行中的“neves”是“seven”（7），“tres”=3，7−3=4。
• 第 3 行中的“evlewt”是“twelve”（12），“drei”=3，12−3=9。
• 第 4 和 5 行中有两个反转的“数字 - 单词”：
– 第 4 行：“xis”→“six”（6）和“ytnewt”→“twelve”（12）；6+12=18，加上 3=21。
– 第 5 行：“eerht”→“three”（3）和“ytnewt”→“twelve”（12）；3+12=15，加上 3=18。现在看最后一行：“minus one-point-two Satya eno Bill X”它遵循相同的五部分格式。注意到“eno”反转后是“one”（1）。而“第一个数字”是“minus one-point-two”（-1.2）。根据对于只有一个数字 - 单词行的规则，最终数字 =（反转词得到的数字）−（第一个数字）我们计算：
最终 =1−（−1.2）=1+1.2=2.2
因此，X 的一个可能补全是 2.2。
受限制的日历规划：
用户：根据以下约束和可用时间表，找到一个共同的会议时间：
约束条件：- 会议时长必须为 90 分钟。- 会议前后应有 10 分钟的缓冲时间。- 周末不得安排会议。- 会议不得安排在上午 10:00 之前。- 这是一个高优先级会议，应尽早安排。
可用时间表：p1 至 p10 的具体时间安排。
Phi-4-reasoning：会议的共同时间是周一，具体安排如下：• 缓冲时间前：14:00–14:10 • 会议：14:10–15:40 • 缓冲时间后：15:40–15:50 这是满足所有约束条件的最早可能时间。免责声明：此解释仅供参考。请在最终确定任何会议安排之前与您的团队核对所有调度详情。
解决迷宫：
用户：请通过输出从节点 0 到节点 {destination} 的有效路径（用空格分隔的整数列表）来解决以下以邻接表形式提供的迷宫。
邻接表：（以下为图片形式展示）
Phi-4-reasoning：（以下为图片形式展示的路径）
2. 数据方法论
高质量的数据策划，整合了创造性设计的合成生成和经过筛选的有机数据，一直是训练所有 Phi 模型的核心 [20, 28, 1, 2]。Phi-4 基础模型使用大型创新的合成数据集进行预训练，这些数据集专门策划以优先考虑推理和复杂问题解决。这一基础使 Phi-4 在推理密集型基准测试（如 MATH 和 GPQA）上表现出色，甚至在某些评估中超越了 GPT-4o。这些能力展示了以数据为中心的预训练策略的有效性，并使 Phi-4 成为进一步专业化的强大起点。
然而，尽管 Phi-4 具有扎实的推理基础，但它并未明确训练以产生扩展的思考链（CoT）推理轨迹，以利用额外的推理时间计算资源。为了在此基础上进一步发展并释放更结构化的推理行为，我们构建了一个高质量的提示词 - 响应对数据集，专门用于推理监督。我们的提示词来自公共网络资源、现有数据集和授权集合，并进一步通过合成问题进行增强。在监督微调期间使用的响应是专门生成的，使用 o3-mini 提供高质量的推理轨迹。在本节中，我们详细介绍了如何扩展我们的数据方法论，以明确改进 Phi-4-reasoning 和 Phi-4-reasoning-plus 的推理能力。我们从监督微调和强化学习中使用的种子数据库的构建开始。
2.1 种子数据库
在我们的数据策划方法的核心是一个精心设计的种子选择过程。种子是一组提示词或问题，用于 Phi-4-reasoning 的监督微调和 Phi-4-reasoning-plus 的强化学习。我们首先从各种基于网络的来源收集多样化和全面的问题数据集。我们补充了通过合成问题生成的，这些问题基于高质量、经过筛选的网络内容。在此初始阶段，我们的重点是最大化多样性和覆盖范围。结果种子数据库涵盖了广泛的推理密集型领域，特别是在 STEM 学科和编码领域，同时还纳入了一般用途的问答风格提示词。此外，我们还包括了专注于对齐的数据，以增强模型的安全性，减轻潜在危害，并促进负责任的 AI 实践。
筛选最“可教授”的样本：鉴于 Phi-4 的强大基线推理能力，许多初始种子问题已经能够被基础模型有效处理。为了使进一步的学习产生影响，我们专门针对位于 Phi-4 当前能力边缘的种子。此外，为了最大化数据集对推理技能的关注，我们还优先考虑需要复杂多步骤推理的提示词，而不是主要测试事实回忆的提示词。为了识别符合这些标准的提示词，我们大量依赖基于 LLM 的评估和筛选流程。
认识到并非所有领域都可能有可验证的地面真实解决方案或客观难度概念，我们实施了“难度”的启发式衡量方法。在无法获得可验证的地面真实解决方案的情况下，我们使用强大参考模型的多数响应作为地面真实的代理，然后根据较弱模型（例如 Phi-4 或 GPT-4o）的生成与（代理）地面真实解决方案的一致率来估计种子难度。那些显示出有意义差距、表明有改进空间的种子被保留下来。此外，基于 LLM 的评估员使用评分表来评估解决提示词所需的推理步骤数量和复杂性，提供进一步的筛选和优先级信号。
我们早期的监督微调实验指导我们选择性地保留最有效的数据子集，以实现可转移的推理策略的学习。我们发现，在这些精心挑选的数据子集上进行训练可以广泛泛化到推理特定任务和通用任务（见图 8 和表 2）。
合成种子数据：我们将筛选后的种子的一个子集重写并转换为新的合成数据集，以改进与目标推理技能的对齐。例如，我们将一组编码问题转换为文字问题，或将一些数学问题重写为具有简短解决方案，以便于在下游强化学习中进行验证（见图 3）。
原始网络数据：在三角形 ABC 的边 AB 和 BC 上分别取点 M 和 N。已知△AMC 的周长等于△CNA 的周长，且△ANB 的周长等于△CMB 的周长。证明△ABC 是等腰三角形。
合成数据：ABC 是一个三角形，AB=13，BC=10。在三角形 ABC 的边 AB 和 BC 上分别取点 M 和 N。已知△AMC 的周长等于△CNA 的周长，且△ANB 的周长等于△CMB 的周长。求 AC 的长度。
图 3：将网络上的种子数据（左）重写为可验证的合成问题，用于 SFT 和 RL（右）。
2.2 训练数据
Phi-4-reasoning 的监督微调使用合成生成的响应，针对我们策划的种子集。我们生成了推理轨迹和最终响应，并将它们组合成一个结构化格式，包括“思考”和“答案”块。我们在 SFT 实验中发现，即使在这种简单的生成设置中，仔细选择和筛选种子对模型的成功至关重要。我们将完整的训练数据通过与 Phi-4 [2] 中用于对流行推理以及通用基准测试（包括本报告中未讨论的许多测试）进行去污染的相同严格去污染过程。去污染的基准测试列表包括：AIME-2024、MATH、GPQA、LiveCodeBench、Codeforces、OmniMATH、SWE-Bench Verified、SimpleQA、DROP、AGIEval、ARC-Challenge、ARC-Easy、CommonsenseQA、GSM8k、HellaSwag、HumanEval、MBPP、OpenBookQA、PIQA、WinoGrande、ArenaHard、MT-Bench、PhiBench。AIME-2025 在 Phi-4-reasoning 的数据最终确定后发布，因此该基准测试保持无污染。
我们还创建了一个多样化的对齐和安全提示词数据集，源自 [2, 39]，并使用与数学和编码领域的数据合成相同的教师模型和生成流程生成合成响应。我们在训练中增强提示词，添加详细的微软负责任 AI 标准的安全指南，以引发遵循 Microsoft 负责任 AI 标准的响应。在使用安全数据进行训练时，我们从提示词中移除安全指南，以激励模型隐式学习预期行为。这些指南涵盖了各种主题，包括：用户理解与清晰度、安全与道德指南、限制、免责声明与知识范围、处理复杂和敏感话题、安全与尊重的互动、保密性等。我们注意到，模型倾向于在“思考”块中重复这些指南的变体；这种对模型安全的影响是一个活跃的研究领域 [55]，特别是对于开源模型，用户和开发人员可以完全访问生成内容。我们还选择教授模型不要在“答案”块中揭示指南或思考过程。这可能是对于那些希望仅向用户显示最终输出以减少用户认知负担和对思考轨迹的过度依赖的应用程序的期望行为 [45, 8]。
3. Phi-4-reasoning：Phi-4 的监督微调
Phi-4-reasoning 是通过对 140 亿参数的 Phi-4 模型 [2] 进行监督微调（SFT）得到的，在任何强化学习之前。我们 SFT 的目标是从基础模型中提取结构化推理能力。Phi-4-reasoning 的架构与 Phi-4 模型相同，有以下两个关键修改。
• 推理令牌：从基础模型中重新分配两个占位符令牌作为 <think> 和 </think> 令牌，分别标记推理（“思考”）块的开始和结束。
• 增加令牌长度：基础模型（Phi-4）最初支持最大令牌长度为 16K。为了容纳额外的推理令牌，RoPE [51] 的基础频率加倍，模型被训练以支持最大长度为 32K 令牌。
我们使用了在第 2 节中描述的各种提示词的长思考链推理轨迹的合成示例。我们的 SFT 数据包括超过 140 万个提示词 - 响应对，总计 83 亿个推理领域的唯一令牌，如数学和编码，以及安全和负责任 AI 的对齐数据。训练运行大约 16K 步，全局批量大小为 32，上下文长度为 32K 令牌。我们使用 AdamW，学习率为 1e−5，线性热身 450 步，权重衰减为 1e−4。
Phi-4-reasoning 在 SFT 阶段后已在多个基准测试中表现强劲。尽管专注于从选定领域（数学、编码和安全）的推理特定内容，但性能泛化到训练数据中未直接针对的任务，例如日历规划（图 8）。虽然我们进行了相对较长的 SFT 阶段，对推理数据源进行了 2 次以上的遍历，但我们没有看到与基础 Phi-4 模型相比在更通用能力上的灾难性遗忘。实际上，正如表 2 所总结的，Phi-4-reasoning 在大多数通用基准测试中的性能显著优于 Phi-4。
图 4a 显示了在整个 SFT 迭代过程中关键指标的进展。我们通过手动检查发现，模型在训练的早期阶段就开始使用明确的“思考”令牌，这表明表面结构化的格式本身被快速学习。然而，正如图 4a 所示，随着训练的进行，思考链的质量和模型的推理能力都在提高，这表明模型不仅在复制格式，而是在实际获得推理作为一种学习技能。有趣的是，与强化学习不同，在 SFT 过程中我们没有看到响应长度的增加。事实上，如图 4b 所示，平均响应长度略有减少，表明随着训练的进行，模型正在学习更有效地使用其令牌预算。
在本节的其余部分，我们从高层次描述了我们在推理 SFT 中的实验过程。早期的实验表明，用于指令微调 Phi-4 的 SFT 配置不能直接转移到以推理为重点的训练中。例如，推理数据的最优超参数与 Phi-4 中用于对齐微调的超参数有显著不同。因此，我们进行了广泛的实验，以识别专门适用于推理的有效 SFT 配置。
3.1 探索阶段
在 SFT 的探索阶段，我们研究了各种设计选择对模型性能的影响，如下面所述。这一过程与第 2 节中描述的数据策划管道紧密交织，早期 SFT 运行的信号被用来迭代扩展和改进训练数据混合。
训练超参数：我们首先调整 SFT 超参数，主要关注学习率。我们在 [1e−6,2e−5] 范围内进行了网格搜索，从 Phi-4 基础模型的 SFT 学习率（1e−6）到其中期训练学习率（3e−5）。在我们的实验中，1e−5 在推理性能方面提供了最佳平衡。我们发现，较高的学习率会导致较低的训练损失，但在各种下游评估中出现饱和和 / 或退化。我们还测试了零权重衰减与小权重衰减（1e−4）之间的差异，并发现差异在基准方差范围内。图 5 的实验 1–3 展示了这些超参数选择的影响。
合成种子数据的作用：如第 2 节所述，我们创建了合成数学数据种子，以鼓励模型生成简短、精确的最终答案。此数据集中的每个响应因此被结构化为：一个思考链块，后跟一个简短的总结和一个简洁的最终答案。当与基于网络的数学问题一起纳入 SFT 数据集中时，这种合成数据在复杂任务中带来了持续且显著的增益——在 AIME 2022–2024 上性能提高了 3–10%。图 5 中实验 4 和 5 展示了一个小规模研究中这种针对性合成增强的效果。
系统消息的作用：为了促进一致的思考链行为，我们使用了一个专注于推理的系统消息进行训练，该消息指示模型在其思考过程的全面周期内系统地探索问题，然后提供最终精确且准确的解决方案。在我们的实验中，使用此系统消息提高了思考链生成的鲁棒性和一致性。我们还尝试了在训练期间部分移除和 / 或替换系统消息，并使用其他通用变体。这提高了在推理时对随机系统消息的鲁棒性。然而，当在原始推理消息下进行评估时，我们观察到基准分数的更大变异性，以及平均基准性能的轻微下降。基于这些发现，我们在最终的 SFT 训练中使用了以下固定的推理专注系统消息。
系统消息：“你是 Phi，一个由微软训练的语言模型，旨在帮助用户。你的角色是通过系统的思考过程彻底探索问题，然后提供最终精确且准确的解决方案。这需要进行全面的分析、总结、探索、重新评估、反思、回溯和迭代周期，以发展经过深思熟虑的思考过程。请将你的响应结构化为两个主要部分：思考部分和解决方案部分，使用指定的格式：<think> 思考部分 </think> 解决方案部分。在思考部分中，详细说明你的推理过程，按步骤进行。每个步骤应包括详细的考虑因素，如分析问题、总结相关发现、头脑风暴新想法、验证当前步骤的准确性、改进任何错误以及重新审视之前的步骤。在解决方案部分中，基于思考部分的各种尝试、探索和反思，系统地展示你认为正确的最终解决方案。解决方案部分应逻辑严谨、准确且简洁，并详细说明得出结论所需的必要步骤。现在，请按照上述指南尝试解决以下问题。”
优化数据混合：SFT 性能的一个重要杠杆是训练数据混合的组成。设计数据混合转化为指定不同数据源的权重用于训练。在这种情况下，权重对应于从给定数据源重复样本的次数（周期）。为了简化调整，我们基于（1）领域（例如数学、代码）和（2）质量对数据源进行聚类，并对每个聚类中的所有成员分配相同的权重。
一个重要的观察结果是，在我们的 SFT 设置中，跨领域的“可加性”在它们的最优数据混合方面是成立的。具体而言，我们发现可以独立于其他领域（如数学和代码）优化混合，然后通过简单地连接它们各自的权重来组合。得到的复合混合保留了在单独调整期间在特定领域实现的增益。这种模块化允许我们将数据混合搜索进一步分解为更小的组件，其中我们为每个领域的每个数据聚类找到单独的权重。通过在给定数据源上进行迭代，直到在选定的指标上达到饱和，从而为每个聚类的单独组件权重。
图 5 展示了此过程在代码和数学领域的示例：实验 8 仅使用数学的优化数据混合（无代码数据），而实验 9 简单地添加了代码数据并使用统一权重，从而在 LiveCodeBench 上提高了分数。我们随后独立调整代码数据的混合，然后将代码数据与数学配方组合在实验 10−12 中。如所示，数学和代码的单独配方可以组合以改善数学和编码基准测试的性能。当我们在最终的 SFT 配方中进一步包含对齐和通用领域数据时，这种可加结构仍然保持核心地位。
基础模型推理：我们尝试了两个基础模型进行推理专注的 SFT：Phi-4 和 Phi-4-base（在 vanilla post-training 之前的中期训练检查点）。这两个变体在推理基准测试上的表现相似，而 Phi-4 在安全性和对齐方面表现略好，这是通过自动化 LLMs 测量框架 [37] 对大型语言模型的负责任 AI 指标进行测量得出的。我们将其归因于 Phi-4 的额外安全性和对齐 post-training，并最终选择 Phi-4 作为 Phi-4-reasoning 的基础，以保留先前非推理 post-training 的好处。
3.2 扩展阶段
在探索阶段建立训练配方后，我们在训练和推理时间计算方面扩展了我们的方法。在训练方面，我们在多个领域（包括数学、代码、逻辑谜题和安全与负责任 AI）的组合数据混合上进行了 SFT，权重来自探索实验（见第 3.1 节）。最终模型使用此混合进行了 16B 令牌的训练。
除了扩展数据和计算外，我们还研究了使用不同教师模型进行数据生成对推理性能和推理时间计算使用的影响。具体而言，我们发现 o3-mini 的中等“推理努力”与 DeepSeek-R1 作为教师的效果相似，但 o3-mini 中等更节省令牌。我们还发现，o3-mini 的高努力在任务上始终如一地比中等努力更强，同时增加了响应长度，增加了推理时间计算。为了适应更长的思考链推理，我们将模型的上下文长度扩展到 32k 令牌，使其能够在测试时有效使用更长、更详细的训练轨迹。
此阶段建立了 Phi-4-reasoning 的最终架构和训练管道，将混合设计和教师质量的教训整合到一个可扩展、推理优化的系统中。
4. Phi-4-reasoning-plus：在 Phi-4-reasoning 上添加一点 RL
在上述监督微调（SFT）阶段之后，我们应用基于结果的强化学习（RL）来进一步增强 Phi-4-reasoning 模型的推理能力，遵循与 [48, 21, 36] 类似的配方。我们特别使用了组相对策略优化（GRPO）算法 [48, 21]，并进行了针对我们设置的修改。
RL 训练专门针对数学推理。GRPO 的种子数据集由 72,401 个数学问题（无解决方案的提示词）组成，我们每 RL 迭代从中抽取 64 个问题种子。种子集从第 2 节中描述的更大训练语料库中策划而成。正如我们稍后在本节中看到的，即使仅在 6,400 个问题上进行 RL 训练，也能显著提高数学和推理评估的准确率。我们希望强调，种子数据不包含任何编码练习，这可能从我们的模型在 LiveCodeBench 上的得分中显而易见。
4.1 奖励函数
我们使用基于规则的奖励模型，以避免与神经奖励模型相关的复杂性和潜在的奖励黑客行为 [6, 17]。最终的奖励信号 Rfinal 激励正确性，惩罚不良行为（如重复和过度长度），并鼓励适当的响应格式。
主要的奖励组成部分是长度感知的准确率分数，Racc_scaled。首先通过提取最终答案（通常在 \boxed{} 标签内）并使用等价检查和外部 LLM 验证器（如果简单的答案提取失败，即响应中没有 \boxed{} 标签进行答案正则表达式匹配）来确定原始的二元准确率分数 Racc_raw ∈ {0,1}。长度感知的准确率奖励 Racc_scaled 取决于 Racc_raw 和生成长度 L。设 Lmax = 31,744 为最大响应长度（我们为提示词保留 1024 个令牌），Lpos_control = 25,600 为正确答案不产生长度惩罚的最大长度，Lneg_control = 3,702 为不产生长度惩罚的错误答案的最小长度。
简单来说，我们鼓励模型在答案正确时生成简洁的输出，而在答案错误时促使模型进行更多思考。具体而言，长度感知的准确率组成部分按以下方式计算（见图 6 说明）：
• 如果答案正确（Racc_raw = 1）：定义 ρ+ = min(1, max(L−Lpos_control,0)/ (Lmax−Lpos_control) ) 对于正确答案，长度感知的准确率奖励范围从 R+ min = 0.5 到 R+ max = 1.0，使用余弦缩放 [60] 计算为：
Racc_scaled = R+ min + 0.5 ⋅ (R+ max − R+ min) ⋅ (1 + cos(πρ+)).
• 如果答案错误（Racc_raw = 0）：定义 ρ− = min(1, L / Lneg_control ) 对于错误答案，长度感知的准确率奖励范围从 R− min = −1.0 到 R− max = −0.5，计算方式相似：
Racc_scaled = R− max + 0.5 ⋅ (R− min − R− max) ⋅ (1 + cos(πρ−)).
对于格式违规的输出，我们手动覆盖长度感知的准确率奖励：
• 不完整性：缺少结束序列令牌 (<|im_end|>) 将被处以 Racc_scaled = −0.5 的惩罚。
• 无效的“思考”块：不正确或缺少 <think> 标签的使用将被处以 Racc_scaled = −1.0 的惩罚。
除了基于准确率的奖励外，我们还考虑惩罚重复模式的输出。具体而言，我们根据重复的 5 - 元素频率定义重复惩罚（Rrep）作为负奖励，计算为：
Rrep = −max(5 - 元素中频次 >5 的数量 / 5 - 元素的总数，频次 >5 的 5 - 元素的最大频次 / (单词数 /5 ))。
最终的 RL 奖励因此计算为：
Rfinal = waccRacc_scaled + wrepRrep，
其中 wacc = 8⁄13, wrep = 1⁄13.
4.2 训练细节和实验观察
我们利用 verl 框架 [49] 进行 GRPO 训练，使用上述奖励信号。RL 训练的超参数为：全局批量大小为 64，分布在 32 个 Nvidia H100 GPU 上，Adam 优化器学习率为 5 × 10−8，前 10 步进行余弦热身，GRPO 组大小为 G = 8，KL 正则化为 β = 0.001，熵系数为 γ = 0.001。Phi-4-reasoning-plus 的最大长度为 32k，但在选定的基准测试上测试发现其在高达 64k 令牌时表现良好。
在我们的 GRPO 训练中最大化的目标是
1 G G ∑ i=1 1 ∣oi∣ oi ∑ t=1 {min[ πθ(oi,t∣q,oi,<t) πθold(oi,t∣q,oi,<t) ˆAi,t,clip( πθ(oi,t∣q,oi,<t),1 − ϵ,1 + ϵ) ˆAi,t] − βDKL(πθ∣∣πθold) + γEntropy(πθ)}
其中 ˆAi,t = Rfinal(q,oi)−mean({Rfinal(q,o1),...,Rfinal(q,oG)} std({Rfinal(q,o1),...,Rfinal(q,oG)}) 是从上述奖励中估计的组相对优势。
我们选择作为 RL 检查点的模型是在 AIME 2024 上表现最佳的模型，即训练了 90 步的模型，仅在大约 6k 示例上（每示例 8 条响应轨迹）。我们分享了 Phi-4-reasoning-plus 在 GRPO 训练动态中的一些发现，如图 7 所示。
从强大的 SFT 模型（即 Phi-4-reasoning）开始，额外的 GRPO 训练仅 90 步就将 AIME 性能提高了 10% 以上（图 7a）。进一步训练更多步骤并没有转化为额外的增益，暗示一个已经强大的 SFT 模型的潜力接近其性能上限。这一观察结果的一个例外是我们在 GRPO2 中裁剪了超出 31k 输出令牌的响应，这限制了 GRPO 可以提供的帮助。
我们发现，整个 GRPO 训练过程中，响应的持续时间与模型在 AIME 上的性能强烈相关，如图 7c 所示。此外，AIME 分数似乎与奖励呈弱相关，例如，见图 7b，尽管模型主要根据准确率（图 7b 和 7c）进行训练。
错误 / 响应长度增长的期望效果在训练中显现，因为模型在回答问题前学会长时间思考，从而提高其推理能力。图 7d 进一步揭示了这种效果，由于我们奖励模型设计3，当模型当前答案错误时被激励进行更多思考，导致错误答案的生成长度比正确答案的平均生成长度增长更快。
事实上，由于最大序列长度限制，一旦错误答案使用了所有 31k 允许的生成令牌，模型可能没有机会在末尾产生最终答案（带有 \boxed{} 标签），因此奖励趋于平稳（图 7e）。
尽管在训练期间强制执行长度裁剪，我们观察到模型始终保持健康的熵水平，表明在解决方案空间内持续探索（图 7f）。我们假设，通过插值技术（类似于在 SFT 中从 16k 扩展到 32k 的 RoPE 插值，或类似 [14, 32, 36] 中的其他 RoPE 插值方法）使模型支持更长的上下文窗口（例如 64k 令牌），可以在 GRPO 训练中获得更多好处。我们将这种扩展上下文方法的探索留待未来工作。
3 通过我们的奖励函数设计，最终 Rfinal = 8/13 ≈ 0.62 是可能的。
表 1：所选推理基准测试中各模型的平均 Pass@1 准确率（%）。粗体表示每个基准测试中的最佳模型，下划线表示次佳。
模型   AIME 24   AIME 25   HMMT   OmniMath   GPQA-D   LCB   Codeforces
Phi-4-reasoning   74.6 (5.1)   63.1 (6.3)   43.8 (6.2)   76.6 (0.5)   67.1 (2.7)   53.8   1736
Phi-4-reasoning-plus   81.3 (1.8)   78.0 (4.6)   53.6 (6.3)   81.9 (0.1)   69.3 (2.1)   53.1   1723
OpenThinker2-32B   58.0   58.0   —   —   64.1   —   —
QwQ 32B   79.5   65.8   47.5   —   59.5   —   —
EXAONE-Deep-32B   72.1   65.8   —   —   66.1   59.5   —
DeepSeek-R1-Distill-70B   69.3 (2.7)   51.5 (5.8)   33.3   63.4 (0.4)   66.2 (2.4)   57.5   1633
DeepSeek-R1   78.7 (3.8)   70.4 (4.3)   41.7   85.0 (0.6)   73.0 (1.7)   65.9   2029
o1-mini   63.6   54.8   38.0 (6.2)   60.5   60.0   53.8   1650
o1   74.6 (6.5)   71.4 (5.7)   48.3   67.5 (0.9)   76.7 (1.8)   63.4   1891
o3-mini-high   88.0 (5.5)   82.5 (4.9)   67.5   74.6 (5.1)   77.7 (0.6)   68.8   2130
Claude-3.7-Sonnet   55.3 (3.0)   53 (5.8)   31.7   54.6 (0.9)   76.8 (1.3)   52.6   —
Gemini-2.5-Pro   92   86.7   82.5   —   84   69.1   —
5. 评估
我们从两个互补的维度评估我们的模型：推理特定能力和通用能力。主要区别在于，问题的解决方案是否可以从逐步解决问题中受益，这是我们的培训方法明确鼓励的行为。尽管如此，仍然存在一些通用能力，其中更简单的推理是主要任务的其他更显著预期行为的一部分，尽管推理不是主要测试的技能。以下经验结果分析了这两部分。对于两部分，我们从仍然对大多数最新模型具有挑战性的一系列丰富的基准测试中进行评估，而不太强调过于饱和的基准测试。
5.1 推理基准测试
在本报告中讨论的基准测试中，AIME、MATH、GPQA Diamond 和 LiveCodeBench 是最近主要模型发布报告中广泛采用的技术报告 [43, 27, 21] 中的技术报告。AIME 包括来自美国邀请赛数学考试的问题，涵盖 1983 年至 2025 年，而 GPQA 包括由领域专家在生物学、物理学和化学领域编写的研究生级别科学问题。这些基准测试的性能在图 1 中进行了讨论。
2025 年的 AIME 子集特别有趣，因为它在 Phi-4-reasoning 的训练数据最终确定后发布，确保其完全无污染。然而，该基准测试仅有 30 个问题，使得评估特别容易受到采样方差的影响 —— 尤其是在推理模型通常使用的较高解码温度下。对于所有包括我们模型和 OpenAI 以及 DeepSeek 家族模型在内的模型，两次独立运行的平均值在 AIME 2025 上可能相差高达 5-10 个百分点，从而使模型并排比较不可靠。为了减轻此问题并增加结果的统计稳健性，我们报告了在 50 次独立运行中计算的 pass@1 准确率平均值，如表 1 和图 1 所示。此外，对于 AIME 2025 和 GPQA，我们分别使用 50 和 64 次重复运行（对于统计稳健性），对于所有其他基准测试使用 5 次重复运行。对于基准测试结果的更多详细分析，包括 Phi-4-reasoning 和 Phi-4-reasoning-plus 在 AIME 2025 上的比较，请参见图 9 和第 5.1.2 节。
为了更广泛地评估推理能力，我们采用了一组来自 [10] 的综合基准测试。OmniMATH [16] 包括超过 4000 个具有严格人工注释的奥林匹克级别问题，涵盖广泛的主题和问题类型。我们还包括两个新的基准测试，3SAT 和 TSP [10]，用于研究模型使用符号和组合推理解决 NP 难题的能力 [44, 22]。此外，我们在 BA-Calendar [13] 上进行评估，这是一个日历规划基准测试，要求模型在考虑超出可用性之外的约束（如时区、缓冲时间、优先级等）的情况下，为参与者找到一个共同的时间段。最后，我们还包括两个空间推理基准测试：Maze 和 SpatialMap [56]。Maze 包括多项选择问题，例如计算给定迷宫中的转弯次数或确定两个点之间的空间关系，我们使用的是 10×10 版本的基准测试。SpatialMap 通过询问满足几何约束的对象之间的空间关系或计数来评估关系推理。
对于所有这些结果，我们使用 Eureka ML Insights 仓库 [6] 提供的实现管道来评估所有模型。Eureka ML Insights 是一个可重用的开源评估框架，用于标准化超出单一分数报告和排名的大型基础模型评估。注意，基线模型的评估结果最近在 [10] 中报告，我们重用了相同的评估日志用于基线比较，以及用于研究 Phi-4-reasoning 和 Phi-4-reasoning-plus 的相同评估方法。
5.1.1 基线模型
我们将我们的模型与选定的最新模型进行比较，如表 3 所述，包括 o1、o3-mini-high、DeepSeek-R1、DeepSeek-R1-Distill-Llama-70B、Claude 3.7 Sonnet 和 Gemini 2.5 Flash Thinking。对于 Phi 模型，我们使用温度 0.8，对于 DeepSeek 家族模型，我们使用推荐的 0.6 温度（在 HuggingFace 的相应模型卡上），否则使用 1.0 或模型 API 中的默认温度设置。在最大令牌长度方面，我们尽量允许所有模型使用尽可能多的令牌，同时避免其他实验障碍，如 API 超时。对于我们的模型，我们在评估中使用了第 3 节中描述的系统消息。对于所有基准测试，我们使用相同的 CoT 提示模板，该模板明确要求模型逐步思考，然后提供答案。对于 o1 评估，我们使用了一个非 CoT 提示模板，因为 CoT 请求通常会触发策略拒绝。
除了图 8 中的基线外，我们还在表 1 中报告了与更新的基线（包括 OpenThinker2 [53]、QwQ [54]、EXAONE-Deep [31] 和 Gemini-2.5-Pro [18]）的比较结果。
5.1.2 AIME 2025 的准确率分布：超越单一分数分析
大多数现有的推理模型在 AIME 2025 上的比较使用在单次数据集传递中计算的平均准确率。然而，大型语言模型表现出大的生成非确定性，即它们可能在给定相同提示词和推理参数（如温度和最大令牌）的情况下产生截然不同的答案 [9, 10, 25]。对于非推理模型，即使在非常低的温度下（甚至零温度），也可能出现非确定性，这在推理模型中几乎是预期的，因为它们被建议在高温度（0.6 至 1.0）下运行，以多样化推理路径。鉴于 AIME 2025 也仅包含 30 个问题，非确定性使得基于准确率的分析变得不可靠。
为了考虑此类实验的随机性质，我们通过使用 50 次独立运行（具有相同的提示词和温度）的核密度估计来研究 AIME 2025 上的准确率分布。我们发现以下几个有趣的现象，如图 9 所示。首先，我们观察到所有模型的准确率方差都很高。例如，DeepSeek-R1-Distill-Llama-70B 的准确率范围从 30% 到 70%，而 o3-mini 的准确率范围从 70% 到 100%。这表明使用单次运行对模型进行比较可能轻易产生误导性结论。其次，平均准确率处于两端的模型显示出更稳健的准确率分布。例如，Phi-4-reasoning-plus 和 Phi-4 的准确率范围相对较窄，与 DeepSeek-R1-Distill-Llama-70B 和 Phi-4-reasoning 相比。第三，准确率分布进一步表明 Phi-4-reasoning-plus 的竞争力，其分布与 o3-mini 的分布大部分重叠，并且与 DeepSeek-R1-Distill-Llama-70B 的分布几乎不重叠。图 8 还显示了包括我们在内的几个模型的平均 pass@1 准确率及其标准差。由于数据量非常小，这个图可能与较少运行次数（例如 5 次）的实验看起来截然不同，因为即使在两组不同的 5 次独立运行之间也可能存在方差。这种行为也解释了为什么不同的、同时进行的评估工作在报告的五次运行分数上可能存在差异，这些分数与模型发布时模型卡中报告的分数有所不同。
我们希望这些结果能为更稳健的定量分析提供见解，并激励人们超越单一分数和单一运行的准确率报告。在本报告中，我们还扩展了我们的定量分析，涵盖了更多样化的基准测试，这些测试的样本数量在 800-4500 之间，除了 AIME 24 & 25、HMMT 和 GPQA，这些测试在大多数最近发布的模型的技术报告中很常见。在确保包含多次运行、标准差和统计测试的同时，更大的基准测试还允许进行更细致的错误分析，以发现常见的错误模式，并可能揭示模型之间的行为相关性 [42, 12, 40]。
同时，评估模型在较小但非常具有挑战性的基准测试（例如 HMMT、USAMO、AIME）上的表现仍然很重要，前提是该分析包括多次运行、标准差和统计测试，并且最好提供定性见解。例如，像 MathArena [11] 和我们的工作 Eureka ML Insights [9] 一样，该过程揭示了不仅分数，还包括每个基准测试提示词和每次运行的完整评估日志。对于推理模型，需要进一步的工作来更好地理解模型行为的方差，并研究更长解决方案草稿的属性。
5.1.3 主要发现
我们展示了在本报告中呈现的更广泛推理基准测试的主要发现，以及支持本节中其他讨论的补充分析。
推理基准测试性能：Phi-4-reasoning 和 Phi-4-reasoning-plus 在包括数学和科学推理、编码、算法问题解决和规划在内的广泛推理任务中相较于早期的 Phi-4 模型都有显著改进。特别是在数学基准测试（如 AIME 和 Omni-Math）上准确率提高了 50%，在编码（LiveCodeBench）上提高了 25% 以上。令人惊讶的是，这些模型在算法和规划问题（如旅行商问题、可满足性问题、日历规划）上也提高了 30%-60%，显示出在未在微调或 RL 训练中针对的领域的推理技能的增强泛化能力。
Phi-4-reasoning 和 Phi-4-reasoning-plus 在数学推理上与 R1 模型（DeepSeekR1 和 DeepSeek-R1-Distill-Llama-70B）以及 o1/o3-mini 模型相比具有相当或更优的准确率，尽管它们只有 140 亿参数。虽然 o1/o3-mini 在 AIME 这一受欢迎且小型的基准测试中表现非常出色，但当考虑更多样化的基准测试（如 Omni-MATH）时，其效能降低，因为它们在离散数学和几何等领域的表现欠佳（见图 15）。Phi-4-reasoning 和 Phi-4-reasoning-plus 显示出对这些多样化数学设置的强大泛化能力，进一步支持了我们基于高质量种子的丰富数据合成流程以及可扩展的蒸馏流程，再加上 RL 阶段的增强探索。它们还在除 GPQA 和日历规划之外的所有任务上超越了 Claude 3.7 Sonnet 和 Gemini 2 Flash Thinking。
Phi-4-reasoning-plus 在数学（也在 RL 阶段被强调）方面相较于 Phi-4-reasoning 具有显著优势。更具体地说，Phi-4-reasoning-plus 在 AIME 2025 上的平均准确率比 Phi-4-reasoning 高 15%（见图 8），在 Omni-Math 和 TSP 上高 5%。这种改进在算法推理、规划、编码和空间理解任务上不太明显，这鼓励了进一步的工作，以实现在更广泛的任务集中的探索和验证。例如，我们观察到，尽管 Phi-4-reasoning-plus 的平均生成长度是 Phi-4-reasoning 的 1.5 倍，但在日历规划、3SAT、迷宫和空间地图等任务中，延长的轨迹并未带来更高的准确率。然而，通过难度级别的详细分析（见图 14）表明，Phi-4-reasoning-plus 仍然能够在中等难度级别的问题上提供改进。对于所有模型而言，准确率在更高级别的难度上下降是常见的现象。
为了评估模型的编码能力，我们在 LiveCodeBench（2024-08 至 2025-01）和 Codeforces（使用 1505 至 1536 号比赛中的 143 个问题）基准测试中进行了报告。对于 Codeforces，我们允许每个模型对每个问题进行十次独立提交尝试，最后计算 Elo 评分。为了验证与其他模型的比较，我们在 DeepSeek-R1-Distil-Qwen-14B 上评估了相同的 Codeforces 协议，并获得了 1481 的 Elo 评分。我们的数字与 [21] 中报告的 LiveCodeBench 和 CodeForces 数字在 1 个百分点和 20 个 Elo 评分点以内。对于所有其他模型，我们报告了其相应报告中发布的 Codeforces 数字，但由于缺乏关于其确切评估程序的公开信息，它们可能不具有直接可比性。
评估还揭示了我们在这份报告中贡献的两个模型以及其他评估模型的几个改进机会。如最近的工作 [10] 所述，科学主题如生物学和化学的改进小于数学和物理学（见图 16）。即使在数学内部，所有模型在离散数学等子主题上的准确率也较低，表明需要改进（见图 15）。有趣的是，模型在 1983-2025 年间美国数学奥林匹克竞赛（AIME）中的错误模式也遵循类似的、可能相关的跨年份模式（见图 10）。最显著的是，所有模型的性能随时间下降，对于近年度也是如此。
性能与令牌使用量的权衡：图 11 展示了准确率与令牌使用量的权衡。在推理基准测试中，Phi-4-reasoning-plus 的平均生成令牌数量是 Phi-4-reasoning 的 1.5 倍，是 o3-mini 的 1.15 倍。Phi-4-reasoning 的令牌长度与 o3-mini 类似。图表中的水平误差条显示了每个提示词的标准差，这意味着标准差是针对每个提示词计算的，然后跨基准测试中的所有提示词进行平均，以显示对于相同提示词的生成长度变化，这对于所有模型来说是可比的。
平均值与最佳 - 5 性能：图 12 和图 17 展示了在所有基准测试上 5 次运行的不同聚合分数。与其他推理模型一样，比较 5 次运行的平均准确率与最佳 - 5 准确率表明，在模型的生成中可能存在更好的轨迹，显示出进一步进步的潜力。这也证实了在训练期间使用改进的验证器的重要性，这些验证器可以提取我们尚未能够访问的模型能力。尽管这些见解令人鼓舞，但在不花费 N 倍更多推理计算的情况下可靠地提高准确率仍然是未来工作的一个悬而未决的问题，特别是对于在推理时间已经很昂贵的模型来说。
5.2 通用基准测试
除了推理基准测试外，我们还在标准基准测试中报告结果，以确保对模型进行推理训练不会削弱它们的通用能力。首先，我们使用 [2] 中的 Phi-4 报告中的基准测试。具体而言，我们使用 OpenAI 的简单评估框架（包括提示词、温度和提取方法）来评估模型在 MMLU [24] 和 MGSM [50] 上的性能。此外，我们还在 Eureka ML Insights 仓库中的通用基准测试上评估我们的模型，包括 FlenQA [30]、Toxigen [23]、Kitab [3] 和 IFEval [62]。最后，我们使用 PhiBench，这是我们内部的评估集合 [2]。见表 2 的结果。
FlenQA [30] 包括 12,000 个问题，其长度从 250 到 3000 个令牌不等，带有真 / 假标签。该基准测试旨在隔离输入长度对大型语言模型的影响，使用多个版本的相同任务，扩展了不同类型和位置的填充段落。任务本身涉及在上下文中引入两个逻辑语句针，并回答一个需要两个语句的问题。每个提示词都用从其他实例中采样的段落或 Book Corpus 段落进行填充，关键信息出现在上下文中的各种位置（开头、结尾、中间或随机位置）。结果显示，推理模型 Phi-4-reasoning、Phi-4-reasoning-plus 和 o3-mini 相比传统模型 Phi-4 和 GPT-4o 更能稳健地处理较长输入，并且不受上下文中关键信息位置的影响（见附录图 13）。改进可能与推理模型更好地处理较长上下文并在此类上下文中进行自我反思有关。
Kitab [3] 是一个具有约束过滤器（例如列出 Isabel Allende 在 2000-2010 年间编写的所有书籍）的信息检索基准测试。我们对仅使用模型的参数知识或在 RAG 风格设置（带有上下文）中进行评估的 Kitab 查询进行了评估，仅针对包含单一书籍约束的查询子集。在推理能力添加到 Phi 模型家族后，通常在无上下文设置中提高了精确度，降低了召回率，而在提供检索上下文时，两项指标几乎与 o3-mini 并驾齐驱。仅依赖参数知识的信息检索和事实性仍是所有模型（即使是大型模型）需要进一步改进的领域，对于如何以及何时从其他来源检索信息的教导也是如此。这仍然是包括所有模型在内的进一步改进的一个途径。
IFEval [62] 包括可客观验证合规性的基于指令的提示词。添加推理能力显著提高了 Phi 模型家族在此基准测试上的性能，甚至超过了 GPT-4o 的性能。
我们的推理模型在 PhiBench 2.21 数据上也比 Phi-4 模型有超过 10% 的改进，PhiBench 2.21 是我们团队在 Phi-4 开发中发现的关键能力的评估 [2]。在 ArenaHard、HumanEvalPlus 和我们的私人 PhiBench 2.21 数据上也有超过 10% 的改进，MMLUPro 上有 3%-5% 的改进。尽管这些基准测试更侧重于通用目的评估，但我们观察到在高度多样化的测量中也有通用改进。
5.3 安全评估
我们根据微软的负责任 AI 原则开发了 Phi-4-reasoning。为了评估模型的安全性，我们使用了以下基准测试：
自动化负责任 AI 测量框架：我们使用了自动化负责任 AI 指标测量框架 [37]。在此框架中，一个大型语言模型扮演用户与被测大型语言模型进行合成对话。另一个大型语言模型随后评估响应，以测量被测模型违反负责任 AI 指南的倾向，包括以下类别：（1）用户成功越狱被测模型的次数；（2）被测模型生成潜在有害内容的次数；（3）被测模型泄露知识产权（IP）的次数。这些类别进一步细分为多个子类别，如 [37] 中所述。结果显示，与基础模型 Phi-4 相比，Phi-4-reasoning 仅有轻微倒退。
Toxigen：Toxigen [23] 是一个大型数据集，包含关于 13 个人群群体的有毒和中性陈述，重点关注对少数群体的隐性仇恨言论。该数据集平衡了每个身份群体的有毒和中性提示词数量相等。这使我们能够评估抹除以及毒性检测：即特定人群的提及是否被视为毒性或仇恨的信号。结果显示，当我们向模型添加推理能力时，我们只能一次改进有毒或中性内容的检测，表明在不引起抹除的情况下检测毒性仍然是所有模型面临的挑战。尽管如此，我们仍观察到在此任务中的适度改进，Phi-4-reasoning 在有毒与中性内容检测准确率方面提供了一个更好的平衡。较低的不平衡也是内容过滤和审核应用中的一个更可取的行为。图 18b 在附录中提供了模型在 13 个不同人口群体上的准确率的更详细视图。Phi-4-reasoning 的改进表明，与 Phi-4 相比，模型已经缩小了之前观察到的一些基于群体的差异，这是朝着增加基于群体的公平性迈出的积极方向。两种模型也都改进了 Phi-4 模型。
尽管进行了上述测量，但由于推理模型生成的输出的评估仍然是一个挑战，主要是因为当前的大型语言模型法官和工具尚未针对长的、逐步轨迹进行优化，可能在处理扩展长度和非线性生成方面遇到困难。例如，推理模型可能会重复问题、创建问题陈述的反事实或边缘案例。在此过程中，法官可能错误地触发安全措施，或者由于语言的纠缠性质，错过模型可能存在的假设和偏见。未来的研究需要通过改进安全导向的验证方法，并分解和简化长轨迹的评估来成熟这些领域的方法。
最后，上述测量集中在测量参与和拒绝越狱场景以及分类风格的有毒语言检测。我们承认，评估模型（包括我们的模型）在更开放的形式和良性场景中也很重要，超越越狱和对抗性场景。这些评估将使我们更好地理解在良性、现实任务中可能发生的偏见和伤害。
6. 限制
Phi-4-reasoning 继承了其基础模型的限制。例如，Phi-4 模型主要支持英文文本，与其他语言以及与标准美式英语相比代表性较低的英语变体相比，性能会下降。尽管采取了安全措施，模型仍可能由于训练数据中的偏见而延续刻板印象、歪曲群体形象或产生不当内容。此外，在通用基准测试中对事实性的评估表明，模型可能会生成听起来合理的不准确或过时信息。对于编码，Phi-4 主要基于 Python 和常用包进行训练，如果脚本涉及其他语言或包，用户应手动验证 API 用法。
此外，Phi-4-reasoning 也表现出与其他推理语言模型的常见限制，例如由于其推理过程需要更多的计算时间和资源，导致响应速度比传统大型语言模型慢。此外，推理模型可能会产生与其自身的推理链相矛盾的响应，从而可能导致不准确。理解并监控推理步骤以实现更透明度仍然是一个活跃的研究领域。
尽管 Phi-4-reasoning 模型功能强大，但也有显著的限制，特别是其 32k 令牌的上下文长度。这一限制对于需要广泛上下文以生成准确且连贯响应的更复杂任务来说可能是限制性的。此外，模型有时会生成超出其上下文窗口大小的响应，导致截断和信息丢失。这种有限的上下文窗口大小也影响了模型在多轮对话中的表现，因为它可能难以维持长时间对话的连贯性。此外，监督微调（SFT）训练数据仅限于 STEM、代码和安全领域，而强化学习（RL）数据仅限于数学领域。尽管有向其他领域泛化的迹象，但这一限制可能会影响模型在不同上下文中的表现。
作者贡献
数据和监督微调：Mojan Javaheripi, Arindam Mitra, Sahaj Agarwal, Caio César Teodoro Mendes, Olli Saarikivi, Marah Abdin 和 Suriya Gunasekar
强化学习：Yue Wu, Harkirat Behl, Guoqing Zheng, Vaishnavi Shrivastava 和 Dimitris Papailiopoulos
评估和分析：Vidhisha Balachandran, Lingjiao Chen, Neel Joshi, Vibhav Vineet, Safoora Yousefi 和 Besmira Nushi
基础设施和发布：Yash Lara, Gustavo de Rosa, Piero Kauffmann 和 Shital Shah
项目领导：Ahmed Awadallah
致谢
我们感谢 Eric Price、Shivam Garg、John Langford 的讨论和反馈，以及 Ece Kamar、Rafah Hosn、Doug Burger、Peter Lee、Asha Sharma、Chelsea Carter、Rob Young 和 Weisheng Liu 在整个项目中的支持。
[1] Marah Abdin, Jyoti Aneja, Hany Awadalla, Ahmed Awadallah, Ammar Ahmad Awan, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Jianmin Bao, Harkirat Behl, et al. Phi-3 技术报告：一款高度胜任的本地手机语言模型。arXiv 预印本 arXiv:2404.14219，2024。
[2] Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, 和 Yi Zhang. Phi-4 技术报告，2024。URL https://arxiv.org/abs/2412.08905。
[3] Marah I Abdin, Suriya Gunasekar, Varun Chandrasekaran, Jerry Li, Mert Yüksekgönül, Rahee Ghosh Peshawaria, Ranjita Naik, 和 Besmira Nushi. KITAB：在信息检索中评估约束满足的大型语言模型。在国际学习表示会议，2024 年。
[4] AIME。AIME 83-24。https://huggingface.co/datasets/lchen001/AIME1983_2024，2024 年。访问于：2025-03-17。
[5] AIME。AIME 2025。https://huggingface.co/datasets/lchen001/AIME2025，2025 年。访问于：2025-03-17。
[6] Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, 和 Dan Mané. AI 安全的具体问题。arXiv 预印本 arXiv:1606.06565，2016 年。
[7] Anthropic。Claude 3.7 Sonnet。https://www.anthropic.com/news/claude-3-7-sonnet，2025 年。访问于：2025-03-17。
[8] Iván Arcuschin, Jett Janiak, Robert Krzyzanowski, Senthooran Rajamanoharan, Neel Nanda, 和 Arthur Conmy. 野生环境中的链式推理：并不总是忠实的。arXiv 预印本 arXiv:2503.08679，2025 年。
[9] Vidhisha Balachandran, Jingya Chen, Neel Joshi, Besmira Nushi, Hamid Palangi, Eduardo Salinas, Vibhav Vineet, James Woffinden-Luey, 和 Safoora Yousefi. Eureka：评估和理解大型基础模型。arXiv 预印本 arXiv:2409.10566，2024 年。
[10] Vidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, 和 Safoora Yousefi. 推理时间扩展用于复杂任务：我们目前所处的位置以及未来的方向，2025 年。URL https://arxiv.org/abs/2504.00294。
[11] Mislav Balunović, Jasper Dekoninck, Ivo Petrov, Nikola Jovanović, 和 Martin Vechev. MathArena：在未受污染的数学竞赛中评估大型语言模型，2025 年 2 月。URL https://matharena.ai/。
[12] Solon Barocas, Anhong Guo, Ece Kamar, Jacquelyn Krones, Meredith Ringel Morris, Jennifer Wortman Vaughan, W Duncan Wadsworth, 和 Hanna Wallach. 设计 AI 系统的分层评估：选择、考虑因素和权衡。在 2021 年 AAAI/AICS 会议关于 AI、伦理和社会的论文集，第 368–378 页，2021 年。
[13] Natasha Butt, Varun Chandrasekaran, Neel Joshi, Besmira Nushi, 和 Vidhisha Balachandran. Benchagents：通过代理交互自动创建基准测试。arXiv 预印本 arXiv:2410.22584，2024 年。
[14] Shouyuan Chen, Sherman Wong, Liangjian Chen, 和 Yuandong Tian. 通过位置插值扩展大型语言模型的上下文窗口。arXiv 预印本 arXiv:2306.15595，2023 年。
[15] Quy-Anh Dang 和 Chris Ngo. 小型 LLM 中的推理强化学习：什么有效，什么无效，2025 年。URL https://arxiv.org/abs/2503.16219。
[16] Bofei Gao, Feifan Song, Zhe Yang, Zefan Cai, Yibo Miao, Qingxiu Dong, Lei Li, Chenghao Ma, Liang Chen, Runxin Xu, 等. Omni-math：用于大型语言模型的通用奥林匹克级别数学基准测试。ICLR，2025 年。
[17] Leo Gao, John Schulman, 和 Jacob Hilton. 奖励模型过度优化的缩放定律。在国际机器学习会议论文集，第 10835–10866 页。PMLR，2023 年。
[18] Google。Gemini Flash Thinking。https://deepmind.google/technologies/gemini/flash/，2025 年。访问于：2025-03-17。
[19] Xinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, 和 Mao Yang. RStar-Math：小型 LLM 通过自我演变掌握数学推理。arXiv 预印本 arXiv:2501.04519，2025 年。
[20] Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, 等. Textbooks are all you need。arXiv 预印本 arXiv:2306.11644，2023 年。
[21] Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, 等. DeepSeek-R1：通过强化学习激励大型语言模型的推理能力。arXiv 预印本 arXiv:2501.12948，2025 年。
[22] Juris Hartmanis. 计算机与难解性：NP 完全性理论指南（Michael R. Garey 和 David S. Johnson）。SIAM Review，24(1):90，1982 年。
[23] Thomas Hartvigsen, Saadia Gabriel, Hamid Palangi, Maarten Sap, Dipankar Ray, 和 Ece Kamar. ToxiGen：一个用于对抗性和隐性仇恨言论检测的大规模机器生成数据集。在第 60 届计算语言学协会年会会刊（长文），第 3309–3326 页。计算语言学协会，2022 年。
[24] Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, 和 Jacob Steinhardt. 测量大规模多任务语言理解，2021 年。URL https://arxiv.org/abs/2009.03300。
[25] Andreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, 和 Matthias Bethge. 大型语言模型推理的清醒审视：进步的陷阱和可重现性的路径。arXiv 预印本 arXiv:2504.07086，2025 年。
[26] Aaron Hurst, Adam Lerer, Adam P Goucher, Adam Perelman, Aditya Ramesh, Aidan Clark, AJ Ostrow, Akila Welihinda, Alan Hayes, Alec Radford, 等. GPT-4o 系统卡。arXiv 预印本 arXiv:2410.21276，2024 年。
[27] Aaron Jaech, Adam Kalai, Adam Lerer, Adam Richardson, Ahmed El-Kishky, Aiden Low, Alec Helyar, Aleksander Madry, Alex Beutel, Alex Carney, 等. OpenAI o1 系统卡。arXiv 预印本 arXiv:2412.16720，2024 年。
[28] Mojan Javaheripi, Sébastien Bubeck, Marah Abdin, Jyoti Aneja, Caio César Teodoro Mendes, Weizhu Chen, Allie Del Giorno, Ronen Eldan, Sivakanth Gopi, Suriya Gunasekar, Piero Kauffmann, Yin Tat Lee, Yuanzhi Li, Anh Nguyen, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Michael Santacroce, Harkirat Singh Behl, Adam Tauman Kalai, Xin Wang, Rachel Ward, Philipp Witte, Cyril Zhang, 和 Yi Zhang. Phi-2：小型语言模型的惊人力量。微软研究院博客，2023 年。
[29] Fengqing Jiang, Zhangchen Xu, Yuetai Li, Luyao Niu, Zhen Xiang, Bo Li, Bill Yuchen Lin, 和 Radha Poovendran. SafeChain：具有长推理链能力的语言模型的安全性。arXiv 预印本 arXiv:2502.12025，2025 年。
[30] Mosh Levy, Alon Jacoby, 和 Yoav Goldberg. 同一任务，更多令牌：输入长度对大型语言模型推理性能的影响。在 ACL，2024 年。
[31] LG AI Research. ExaOne Deep：增强推理的语言模型。arXiv 预印本 arXiv:2503.12524，2025 年。
[32] Shanda Li, Chong You, Guru Guruganesh, Joshua Ainslie, Santiago Ontanon, Manzil Zaheer, Sumit Sanghai, Yiming Yang, Sanjiv Kumar, 和 Srinadh Bhojanapalli. 功能插值相对位置改进长上下文转换器。arXiv 预印本 arXiv:2310.04418，2023 年。
[33] Tianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Tianhao Wu, Banghua Zhu, Joseph E Gonzalez, 和 Ion Stoica. 从众包数据到高质量基准测试：Arena-Hard 和 BenchBuilder 管道。arXiv 预印本 arXiv:2406.11939，2024 年。
[34] Xuefeng Li, Haoyang Zou, 和 Pengfei Liu. LimR：在 RL 扩展中少即是多，2025 年。
[35] Jiawei Liu, Chunqiu Steven Xia, Yuyao Wang, 和 Lingming Zhang. 由 ChatGPT 生成的代码真的正确吗？对大型语言模型代码生成的严格评估，2023 年。URL https://arxiv.org/abs/2305.01210。
[36] Michael Luo, Sijun Tan, Justin Wong, Xiaoxiang Shi, William Y. Tang, Manan Roongta, Colin Cai, Jeffrey Luo, Li Erran Li, Raluca Ada Popa, 和 Ion Stoica. DeepScaler：通过扩展 RL 使 1.5B 模型超越 o1 预览版。https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2，2025 年。Notion 博客。
[37] Ahmed Magooda, Alec Helyar, Kyle Jackson, David Sullivan, Chad Atalla, Emily Sheng, Dan Vann, Richard Edgar, Hamid Palangi, Roman Lutz, Hongliang Kong, Vincent Yun, Eslam Kamal, Federico Zarfati, Hanna Wallach, Sarah Bird, 和 Mei Chen. 生成式 AI 应用中自动化测量负责任 AI 伤害的框架，2023 年。URL https://arxiv.org/abs/2310.17750。
[38] Arindam Mitra, Luciano Del Corro, Shweti Mahajan, Andres Codas, Clarisse Simoes, Sahaj Agarwal, Xuxi Chen, Anastasia Razdaibiedina, Erik Jones, Kriti Aggarwal, 等. Orca 2：教授小型语言模型推理。arXiv 预印本 arXiv:2311.11045，2023 年。
[39] Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, 等. AgentInstruct：迈向具有代理流程的生成式教学。arXiv 预印本 arXiv:2407.23502，2024 年。
[40] Mazda Moayeri, Vidhisha Balachandran, Varun Chandrasekaran, Safoora Yousefi, Thomas Fel, Soheil Feizi, Besmira Nushi, Neel Joshi, 和 Vibhav Vineet. 挖掘基础模型的技能级别洞察：理解基础模型的权衡。ICLR，2025 年。
[41] Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi, 和 Ahmed Awadallah. Orca：从 GPT-4 的复杂解释轨迹中学习。arXiv 预印本 arXiv:2306.02707，2023 年。
[42] Besmira Nushi, Ece Kamar, 和 Eric Horvitz. 朝着可追究责任的 AI：混合人机分析以表征系统故障。在 AAAI 会议人工计算和众包论文集，第 126–135 页，2018 年。
[43] OpenAI. OpenAI o3-mini 系统卡。https://openai.com/index/o3-mini-system-card/，2025 年。访问于：2025-03-17。
[44] Christos H Papadimitriou. 计算复杂性。在计算机科学百科全书，第 260–265 页。John Wiley and Sons Ltd., 2003 年。
[45] Samir Passi 和 Mihaela Vorvoreanu. 对 AI 过度依赖的文献综述。微软研究院，339:340，2022 年。
[46] Ivo Petrov, Jasper Dekoninck, Lyuben Baltadzhiev, Maria Drencheva, Kristian Minchev, Mislav Balunović, Nikola Jovanović, 和 Martin Vechev. 证明还是虚张声势？在 2025 年美国数学奥林匹克竞赛中评估大型语言模型。arXiv 预印本 arXiv:2503.21934，2025 年。
[47] David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, 和 Samuel R Bowman. GPQA：一个研究生级别的谷歌证明问答基准测试。在首届语言建模会议论文集，2024 年。
[48] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y Wu, 等. DeepSeekMath：推动大型语言模型数学推理的极限。arXiv 预印本 arXiv:2402.03300，2024 年。
[49] Guangming Sheng, Chi Zhang, Zilingfeng Ye, Xibin Wu, Wang Zhang, Ru Zhang, Yanghua Peng, Haibin Lin, 和 Chuan Wu. HybridFlow：一个灵活高效的 RLHF 框架。arXiv 预印本 arXiv:2409.19256，2024 年。
[50] Freda Shi, Mirac Suzgun, Markus Freitag, Xuezhi Wang, Suraj Srivats, Soroush Vosoughi, Hyung Won Chung, Yi Tay, Sebastian Ruder, Denny Zhou, Dipanjan Das, 和 Jason Wei. 大型语言模型是多语言链式推理器，2022 年。URL https://arxiv.org/abs/2210.03057。
[51] Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, 和 Yunfeng Liu. RoFormer：具有旋转位置嵌入的增强型变换器。arXiv 预印本 arXiv:2104.09864，2021 年。
[52] Kimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, 等. Kimi K1.5：扩展大型语言模型的强化学习。arXiv 预印本 arXiv:2501.12599，2025 年。
[53] OpenThoughts Team. Open Thoughts。https://open-thoughts.ai，2025 年 1 月。
[54] Qwen Team. QwQ-32B：拥抱强化学习的力量，2025 年 3 月。URL https://qwenlm.github.io/blog/qwq-32b/。
[55] Miles Turpin, Julian Michael, Ethan Perez, 和 Samuel R. Bowman. 大型语言模型并不总是说它们在想什么：链式推理中不忠实的解释。2023 年。URL https://arxiv.org/abs/2305.04388。
[56] Jiayu Wang, Yifei Ming, Zhenmei Shi, Vibhav Vineet, Xin Wang, Sharon Li, 和 Neel Joshi. 一幅图值一千字？深入探讨视觉语言模型的空间推理。Advances in Neural Information Processing Systems, 37:75392–75421，2024 年。
[57] Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, 和 Wenhu Chen. MMLUPro：一个更鲁棒、更具挑战性的多任务语言理解基准测试，2024 年。URL https://arxiv.org/abs/2406.01574。
[58] An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, 等. Qwen2.5 技术报告。arXiv 预印本 arXiv:2412.15115，2024 年。
[59] Guanghao Ye, Khiem Duc Pham, Xinzhi Zhang, Sivakanth Gopi, Baolin Peng, Beibin Li, Janardhan Kulkarni, 和 Huseyin A Inan. 在大型语言模型中涌现思考 I：寻找正确的直觉。arXiv 预印本 arXiv:2502.06773，2025 年。
[60] Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, 和 Xiang Yue. 解密大型语言模型中的长链式推理。arXiv 预印本 arXiv:2502.03373，2025 年。
[61] Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Weinan Dai, Yuxuan Song, Xiangpei Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, 和 Mingxuan Wang. DAPo：大规模强化学习大型语言模型的开源 RL 系统，2025 年。URL https://arxiv.org/abs/2503.14476。
[62] Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, 和 Le Hou. 大型语言模型的指令遵循评估。arXiv 预印本 arXiv:2311.07911，2023 年。
附录 A：基准测试详情
模型   温度   最大令牌   推理
Phi-4 [2]   0.8†   4,096   否
Phi-4-reasoning   0.8   32,768∗   是
Phi-4-reasoning-plus   0.8   32,768∗   是
DeepSeek-R1-Distill-Llama-70B [21]   0.6   65,536   是
DeepSeek-R1 [21]   0.6   65,536   是
GPT-4o 2024-05-13 [26]   1.0   4,096   否
o1-mini 2024-09-12 [27]   NA   NA   是
o1 2024-12-17 [27]   NA   NA   是
o3-mini 2025-01-31（高）[43]   NA   NA   是
Claude 3.7 Sonnet 2025-02-19 [7]   1.0   32,768   是
Gemini 2 Flash Thinking Exp 2025-01-21 [18]   1.0   32,768   是
对于 Phi-4-reasoning 和 Phi-4-reasoning-plus 在 AIME、HMMT、GPQA 和 Codeforces 上的评估，我们使用 65,536 作为生成的最大令牌数，而无需更改任何 RoPE 参数。我们注意到，这些模型并未在此长度上进行适当训练。对于 Phi-4-reasoning 和 Phi-4-reasoning-plus 的所有其他评估，使用 32,768。†对于 Phi-4，我们在推理基准测试中使用温度 0.8，在通用基准测试中使用温度 0.0。
数据集（提示词数量）链接：
AIME 25 [5]（30）https://huggingface.co/datasets/lchen001/AIME2025
AIME 83-24 [4]（949）https://huggingface.co/datasets/lchen001/AIME1983_2024
HMMT 二月 2025（30）https://huggingface.co/datasets/MathArena/hmmt_feb_2025
Omni-MATH [16]（4428）https://huggingface.co/datasets/KbsdJames/Omni-MATH
GPQA [47]（198）https://huggingface.co/datasets/Idavidrein/gpqa
BA 日历 [13]（2000）https://huggingface.co/datasets/microsoft/ba-calendar
TSP-Opt（新基准测试）（960）待发布
3SAT-Search（新基准测试）（800）待发布
Maze [56]（1500）https://huggingface.co/datasets/microsoft/VISION_LANGUAGE
SpatialMap [56]（1500）https://huggingface.co/datasets/microsoft/VISION_LANGUAGE
表 4：本报告中使用的推理基准测试及获取位置。
附录 B：附加结果
图 14：TSP、BA 日历和 Omni-Math 的准确率和令牌使用量与难度级别。标准差是跨不同并行重复计算的。对于 Omni-Math，我们排除了错误条并省略了一些模型以提高可读性。请注意，Omni-Math 中的难度标签可能不准确且不完美，并且各难度级别可用的数据量不平衡。这导致相邻难度级别之间出现波动。同样，我们没有显示 BA 日历图表中的所有模型。
图 15：Omni-Math 各主题的准确率。尽管所有模型在不同主题上的趋势一致，但所有模型在离散数学和几何相关问题上的表现较低。
图 16：GPQA 各高级领域（生物学、化学、物理学）的准确率和令牌使用量。标准差是跨五次重复计算的，同一高级领域内。对于生物学和化学的改进低于物理学，所有模型的准确率标准差是跨五次重复计算的。
图 17：在五次独立运行中不同聚合方式（最差五次、平均通过率、多数投票、最佳五次）的基准测试结果。跨模型和基准测试观察到，最佳五次性能的提升表明还有进一步改进的空间。
图 18：Toxigen 的细粒度结果。我们观察到在此任务（检测有毒和中性文本）中的适度改进，Phi-4-reasoning 在有毒与中性内容检测准确率方面提供了一个更好的平衡。Phi-4-reasoning 的改进还缩小了之前在 Phi-4 中观察到的一些基于群体的差异，表明群体公平性有所提高。
图 19：模型在不同标签类型上的准确率比较。
图 20：模型在不同人群类别上的准确率比较。