Phi-4-reasoning技术报告


Marah Abdin, Sahaj Agarwal, Ahmed Awadallah, Vidhisha Balachandran, Harkirat Behl, Lingjiao Chen, Gustavo de Rosa, Suriya Gunasekar, Mojan Javaheripi, Neel Joshi, Piero Kauffmann, Yash Lara, Caio César Teodoro Mendes, Arindam Mitra, Besmira Nushi, Dimitris Papailiopoulos, Olli Saarikivi, Shital Shah, Vaishnavi Shrivastava, Vibhav Vineet, Yue Wu, Safoora Yousefi, Guoqing Zheng*
微软
摘要:我们推出了 Phi-4-reasoning,这是一款拥有 140 亿参数的推理模型,在复杂推理任务中表现出色。通过监督微调 Phi-4 并使用精心挑选的“可教授”提示词(涵盖适当的复杂度和多样性)以及利用 o3-mini 生成的推理演示,Phi-4-reasoning 能够生成详细的推理链,并有效利用推理时间计算资源。我们进一步开发了 Phi-4-reasoning-plus,这是一种通过基于结果的强化学习短暂训练得到的变体,通过生成更长的推理轨迹实现了更高的性能。在广泛的推理任务评估中,这两个模型显著超越了 DeepSeekR1-Distill-Llama-70B 等大型开源权重模型,并接近 DeepSeek-R1 模型的性能水平。我们的综合评估涵盖了数学和科学推理、编码、算法问题解决、规划和空间理解等基准测试。有趣的是,我们还观察到在通用基准测试中性能也有非平凡的转移。在本报告中,我们提供了关于训练数据、训练方法和评估的见解。我们展示了精心策划数据对监督微调(SFT)推理语言模型的好处,并且可以通过强化学习(RL)进一步增强。最后,我们的评估指出了改进推理模型性能评估方法的机会。
1. 介绍
专注于推理的大型语言模型(LLMs)经过训练,能够执行需要多步骤分解、内部反思和探索多种问题解决策略的复杂任务。最近的推理模型通过推理时间扩展展现了这些能力,即在推理过程中动态分配更多的计算工作以应对更复杂的任务,从而在数学问题解决、逻辑推理和回答需要更深入上下文理解的问题等领域取得改进。现在,多个前沿模型都有推理优化的变体,包括 OpenAI 的 o1, o3(mini) [43],Anthropic 的 Claude-3.7-Sonnet-Thinking [7],Google 的 Gemini-2-Thinking 和 Gemini-2.5-Flash [18],以及 DeepSeek-AI 的 DeepSeek-R1 [21]。与此同时,多个开源推理模型也已引入研究社区 [58, 52, 19, 21]。
DeepSeek-R1 [21] 率先推出了一系列经过蒸馏的开源模型,证明了大型语言模型的先进推理能力可以通过监督微调(SFT)蒸馏到更小的模型中。后续工作 [59, 34, 61, 15] 表明,这些较小的模型可以通过强化学习进一步改进。这些发现强调了结合监督微调和强化学习来开发高效、高性能的小型语言模型的潜力,这些模型具有强大的推理能力。在本工作中,我们通过整合这些见解和以数据为中心的方法,策划了一系列小型推理模型。
我们推出了 Phi-4-reasoning,这是一款 140 亿参数的模型,通过监督微调 Phi-4 得到,以及通过进一步的强化学习得到的 Phi-4-reasoning-plus。Phi-4-reasoning 是在包含 STEM(科学、技术、工程和数学)、编码和安全任务的高质量数据集上进行监督微调的,这些数据集包含超过 140 万个提示词和高质量答案,这些答案包含由 o3-mini 生成的长推理轨迹。Phi-4-reasoning-plus 则进一步使用强化学习在约 6,000 个高质量数学问题(具有可验证解决方案)上进行训练。
贡献:我们强调了精心策划数据和监督微调(SFT)对推理语言模型的好处。更具体地说,我们展示了提示词和响应的选择与过滤的重要性,以及数据混合和训练配方的关键作用。我们详细介绍了模型核心的这种数据和监督微调配方,详见第 2-3 节。我们的方法与早期 Phi 和 Orca 模型 [20, 28, 1, 2, 41, 38, 39] 的数据驱动方法密切相关,证明了精心策划的数据和高质量的合成数据集如何使小型模型能够与大型模型竞争。其次,我们对通过强化学习(RL)实现的收益感到鼓舞,并计划进一步探索这一领域,尤其是在 SFT 数据不可用的领域(第 4 节)。最后,我们进行了全面的评估,以评估模型的性能和鲁棒性。我们注意到,由于常用基准测试的规模较小以及模型表现出的内在非确定性,需要建立更严格的推理模型评估实践(第 5 节)。
我们总结了模型性能的关键观察结果如下。
与其它模型的性能对比:尽管参数较小(140 亿),但在多个基准测试中,这两个模型的性能与更大规模模型相当或更优,如图 1 和图 8 所示。例如,它们在大多数基准测试(包括数学推理(AIME)和博士级问题(GPQA))中的表现优于 o1-mini 和 DeepSeek-R1-Distill-Llama-70B。在 2025 年美国数学奥林匹克资格赛(AIME 2025)中,它们的性能与拥有 6710 亿参数的完整 DeepSeek-R1 模型相当。在除 GPQA 和日历规划外的所有任务上,它们的性能也超过了 Claude 3.7 Sonnet 和 Gemini 2 Flash Thinking。详见图 1 和图 8。
在算法问题解决方面的性能:我们还在多个新的推理基准测试中测试了模型,包括用于解决 NP 难题的 3SAT(3 字符可满足性问题)和 TSP(旅行商问题),以及 BA 日历规划。这些新任务名义上超出了模型的训练范围,因为训练过程并未有意针对这些技能,但模型在这些任务上表现出强大的泛化能力。
模型改进:Phi-4-reasoning 和 Phi-4-reasoning-plus 在广泛的推理任务中相较于基础模型 Phi-4 有显著提升,包括数学和科学推理、编码、算法问题解决和规划。值得注意的是,这些模型在数学基准测试(如 AIME 2025 和 OmniMath)上的准确率提高了超过 50 个百分点,在编码(LiveCodeBench)上提高了 25 个百分点以上。令人惊讶的是,这些模型在算法和规划问题(如 TSP、3SAT 和 BA 日历规划)上也提高了 30 到 60 个百分点,这表明推理技能向未在监督微调或强化学习中直接针对的领域的泛化能力有所增强。详见图 1 和图 8。
在通用基准测试中的改进:推理的改进为更通用的技能带来了非平凡且通常较大的好处。例如,Phi-4-reasoning-plus 在指令遵循(IFEval)方面的准确率比 Phi-4 高 22 个百分点,在长上下文问答和推理(FlenQA)方面高 16 个百分点,在 ArenaHard(专注于人类偏好聊天交互)方面高 10 个百分点。我们还观察到,这两个模型在检测有毒语言(Toxigen)方面也略有提高,Phi-4-reasoning 在检测中性与有毒内容方面的准确率更加平衡,这对于内容审核和过滤应用是可取的。详见表 2。
推理努力与准确率的权衡:这两个模型提供了两种不同的令牌长度与准确率权衡。Phi-4-reasoning-plus 在数学(在 RL 阶段被强调)方面的准确率显著更高,但平均而言,其使用的令牌数量比 Phi-4-reasoning 多约 1.5 倍。在编码、规划和空间任务等其他推理领域,这种差异不太明显,这表明在更广泛的任务集中改进 RL 探索和验证的途径。详见图 8 和图 11 的准确率与令牌长度权衡。
综合评估:本报告强调了超越小规模数据集单一准确率报告的必要性,因为重复运行中的大型准确率差异 [9, 10, 25]。虽然预期会有一定变化,但当在非常小的示例集(如 AIME)上报告聚合准确率时,问题就变得严重了。对于包括我们的模型以及 OpenAI 和 DeepSeek 家族的所有模型,两次运行的平均值(5 次评估的平均值)可能会有显著差异(在 AIME 上高达 5-10 个百分点),这使得所有模型的并排比较不可靠。为解决此问题,我们报告了多次运行的标准差,对 AIME 2025 进行了更高数量的生成(50-64 次)实验,并在更大、更具挑战性且未饱和的基准测试上报告结果。
改进机会:不同评估策略(即平均值 / 多数投票 / 最佳 / 最差的 N 次)的比较突出了典型生成与最佳生成之间的显著性能差距(图 17)。这些差距表明,通过进一步优化训练和解码方法可以提高模型性能。特别值得注意的是,通过增加并行测试时计算,观察到性能显著提升,例如图 2 所示,广泛的并行化使我们的模型超越了基线准确率,接近 AIME 2025 基准测试的上限。此外,详细的基准测试分析表明,在生物学和化学等领域相较于数学和物理的改进相对较小(图 16)。即使在数学内部,离散数学的改进也相对较小。这些模式在评估的模型中是一致的,勾勒出了未来改进的领域。
Phi-4-reasoning 演示:下面展示了一些精心挑选的 Phi-4-reasoning 响应示例。对于下面的大多数提示词,基础模型 Phi-4 并未提供满意的响应。这些示例超出了监督微调和强化学习期间使用的数据集的范围,表明我们的模型确实将推理作为一种强大的可转移元技能。
需要多少草莓才能收集到 9 个“r”?
用户:我需要收集多少草莓才能得到 9 个“r”?
Phi-4-reasoning:这是一个文字游戏!注意到“strawberry”(草莓)这个词中有三个“r”。所以如果你“收集”三个草莓,你将得到 3×3=9 个“r”。因此,你需要 3 个草莓。
概率问题的巧妙变化:
用户:我有一个公平的硬币,我抛掷 10 次,看到正好 1.12 个正面的概率是多少?请用希腊文反转文本复制最终答案两次,例如如果答案是 1,则打印 ανέ-ανέ。
Phi-4-reasoning:在 10 次抛掷中得到的正面数量必须是整数。得到“1.12 个正面”是不可能的,所以概率是 0。由于 0 在希腊文中通常写作“μηδέν”(意思是“无”),反转其字母得到“νέδημ”。按照你的例子,最终答案复制两次是:νέδημ-νέδημ。
受限制的语言生成:
用户:请仅使用以“S”开头的单词描述西雅图。不允许使用其他单词!
Phi-4-reasoning:西雅图闪闪发光,展示着宏伟的摩天大楼、风景如画的街道、星巴克、海鹰队。海边的环境刺激着 sophisticated( Sophisticated 本身不符合要求,可能指精明的、复杂的)的购物者,享受西雅图特殊的体育精神。晴朗的天气、闪闪发光的天空、美丽的夏天刺激着西雅图充满活力的灵魂。
解决谜语:
用户提供了一个谜语示例,并要求完成末尾的内容:
uno Δημήτρης evif Issis 4 tres Inez neves Margot 4 drei Jordan evlewt Μαρία 9 πέντε ᄀ ᅡ ᄋ xis-ytnewt Nubia 21 πέντε Κώστας eerht-ytnewt Μανώλης 18
用户:对于 X,一个可能的补全是什么,使其与上述示例保持一致?
Phi-4-reasoning:我们可以通过注意到每行有五个部分来“解密”谜语。在每个示例中,各部分是:
• 一个外语中的“数字 - 单词”(或带额外减号的数字),
• 一个“名字”(任何国籍的),• 一个反转的“数字 - 单词”(或两个用连字符连接的反转数字 - 单词),
• 一个“第二个名字”,以及 • 一个最终的数字。当你反转第三个词时,你会得到一个熟悉的英文数字:
• 第 1 行中的“evif”是“five”(5),第一个数字是“uno”=1,5−1=4。
• 第 2 行中的“neves”是“seven”(7),“tres”=3,7−3=4。
• 第 3 行中的“evlewt”是“twelve”(12),“drei”=3,12−3=9。
• 第 4 和 5 行中有两个反转的“数字 - 单词”:
– 第 4 行:“xis”→“six”(6)和“ytnewt”→“twelve”(12);6+12=18,加上 3=21。
– 第 5 行:“eerht”→“three”(3)和“ytnewt”→“twelve”(12);3+12=15,加上 3=18。现在看最后一行:“minus one-point-two Satya eno Bill X”它遵循相同的五部分格式。注意到“eno”反转后是“one”(1)。而“第一个数字”是“minus one-point-two”(-1.2)。根据对于只有一个数字 - 单词行的规则,最终数字 =(反转词得到的数字)−(第一个数字)我们计算:
最终 =1−(−1.2)=1+1.2=2.2
因此,X 的一个可能补全是 2.2。
受限制的日历规划:
用户:根据以下约束和可用时间表,找到一个共同的会议时间:
约束条件:- 会议时长必须为 90 分钟。- 会议前后应有 10 分钟的缓冲时间。- 周末不得安排会议。- 会议不得安排在上午 10:00 之前。- 这是一个高优先级会议,应尽早安排。
可用时间表:p1 至 p10 的具体时间安排。
Phi-4-reasoning:会议的共同时间是周一,具体安排如下:• 缓冲时间前:14:00–14:10 • 会议:14:10–15:40 • 缓冲时间后:15:40–15:50 这是满足所有约束条件的最早可能时间。免责声明:此解释仅供参考。请在最终确定任何会议安排之前与您的团队核对所有调度详情。
解决迷宫:
用户:请通过输出从节点 0 到节点 {destination} 的有效路径(用空格分隔的整数列表)来解决以下以邻接表形式提供的迷宫。
邻接表:(以下为图片形式展示)
Phi-4-reasoning:(以下为图片形式展示的路径)
2. 数据方法论
高质量的数据策划,整合了创造性设计的合成生成和经过筛选的有机数据,一直是训练所有 Phi 模型的核心 [20, 28, 1, 2]。Phi-4 基础模型使用大型创新的合成数据集进行预训练,这些数据集专门策划以优先考虑推理和复杂问题解决。这一基础使 Phi-4 在推理密集型基准测试(如 MATH 和 GPQA)上表现出色,甚至在某些评估中超越了 GPT-4o。这些能力展示了以数据为中心的预训练策略的有效性,并使 Phi-4 成为进一步专业化的强大起点。
然而,尽管 Phi-4 具有扎实的推理基础,但它并未明确训练以产生扩展的思考链(CoT)推理轨迹,以利用额外的推理时间计算资源。为了在此基础上进一步发展并释放更结构化的推理行为,我们构建了一个高质量的提示词 - 响应对数据集,专门用于推理监督。我们的提示词来自公共网络资源、现有数据集和授权集合,并进一步通过合成问题进行增强。在监督微调期间使用的响应是专门生成的,使用 o3-mini 提供高质量的推理轨迹。在本节中,我们详细介绍了如何扩展我们的数据方法论,以明确改进 Phi-4-reasoning 和 Phi-4-reasoning-plus 的推理能力。我们从监督微调和强化学习中使用的种子数据库的构建开始。
2.1 种子数据库
在我们的数据策划方法的核心是一个精心设计的种子选择过程。种子是一组提示词或问题,用于 Phi-4-reasoning 的监督微调和 Phi-4-reasoning-plus 的强化学习。我们首先从各种基于网络的来源收集多样化和全面的问题数据集。我们补充了通过合成问题生成的,这些问题基于高质量、经过筛选的网络内容。在此初始阶段,我们的重点是最大化多样性和覆盖范围。结果种子数据库涵盖了广泛的推理密集型领域,特别是在 STEM 学科和编码领域,同时还纳入了一般用途的问答风格提示词。此外,我们还包括了专注于对齐的数据,以增强模型的安全性,减轻潜在危害,并促进负责任的 AI 实践。
筛选最“可教授”的样本:鉴于 Phi-4 的强大基线推理能力,许多初始种子问题已经能够被基础模型有效处理。为了使进一步的学习产生影响,我们专门针对位于 Phi-4 当前能力边缘的种子。此外,为了最大化数据集对推理技能的关注,我们还优先考虑需要复杂多步骤推理的提示词,而不是主要测试事实回忆的提示词。为了识别符合这些标准的提示词,我们大量依赖基于 LLM 的评估和筛选流程。
认识到并非所有领域都可能有可验证的地面真实解决方案或客观难度概念,我们实施了“难度”的启发式衡量方法。在无法获得可验证的地面真实解决方案的情况下,我们使用强大参考模型的多数响应作为地面真实的代理,然后根据较弱模型(例如 Phi-4 或 GPT-4o)的生成与(代理)地面真实解决方案的一致率来估计种子难度。那些显示出有意义差距、表明有改进空间的种子被保留下来。此外,基于 LLM 的评估员使用评分表来评估解决提示词所需的推理步骤数量和复杂性,提供进一步的筛选和优先级信号。
我们早期的监督微调实验指导我们选择性地保留最有效的数据子集,以实现可转移的推理策略的学习。我们发现,在这些精心挑选的数据子集上进行训练可以广泛泛化到推理特定任务和通用任务(见图 8 和表 2)。
合成种子数据:我们将筛选后的种子的一个子集重写并转换为新的合成数据集,以改进与目标推理技能的对齐。例如,我们将一组编码问题转换为文字问题,或将一些数学问题重写为具有简短解决方案,以便于在下游强化学习中进行验证(见图 3)。
原始网络数据:在三角形 ABC 的边 AB 和 BC 上分别取点 M 和 N。已知△AMC 的周长等于△CNA 的周长,且△ANB 的周长等于△CMB 的周长。证明△ABC 是等腰三角形。
合成数据:ABC 是一个三角形,AB=13,BC=10。在三角形 ABC 的边 AB 和 BC 上分别取点 M 和 N。已知△AMC 的周长等于△CNA 的周长,且△ANB 的周长等于△CMB 的周长。求 AC 的长度。
图 3:将网络上的种子数据(左)重写为可验证的合成问题,用于 SFT 和 RL(右)。
2.2 训练数据
Phi-4-reasoning 的监督微调使用合成生成的响应,针对我们策划的种子集。我们生成了推理轨迹和最终响应,并将它们组合成一个结构化格式,包括“思考”和“答案”块。我们在 SFT 实验中发现,即使在这种简单的生成设置中,仔细选择和筛选种子对模型的成功至关重要。我们将完整的训练数据通过与 Phi-4 [2] 中用于对流行推理以及通用基准测试(包括本报告中未讨论的许多测试)进行去污染的相同严格去污染过程。去污染的基准测试列表包括:AIME-2024、MATH、GPQA、LiveCodeBench、Codeforces、OmniMATH、SWE-Bench Verified、SimpleQA、DROP、AGIEval、ARC-Challenge、ARC-Easy、CommonsenseQA、GSM8k、HellaSwag、HumanEval、MBPP、OpenBookQA、PIQA、WinoGrande、ArenaHard、MT-Bench、PhiBench。AIME-2025 在 Ph

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

jacky_wxl(微信同号)

喜欢作者

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值