微软 Phi-4:小模型的大智慧——技术详解及简单测评

原文:https://zhuanlan.zhihu.com/p/17577753167

在人工智能的世界里,大型语言模型(LLMs)一直是科技巨头们竞相追逐的焦点。然而,微软研究院的最新成果——Phi-4,却以14B参数的“小身材”在众多巨无霸模型中脱颖而出。Phi-4不仅在STEM领域的问答能力上超越了其“老师”GPT-4,还在多个推理任务中表现优异。这一切的背后,是微软团队对数据质量的极致追求和创新性的合成数据生成技术。本文基于Phi-4的技术报告、模型说明及我的一些测试记录进行编写。

技术报告地址:https://arxiv.org/abs/2412.08905Huggingface:https://huggingface.co/microsoft/phi-4Ollama: https://ollama.com/library/phi4

1. 引言

近年来,大型语言模型的进步表明,数据质量的提升可以与传统的模型和数据集规模扩展相媲美,甚至超越后者。基于Phi系列模型(如Phi-1、Phi-2和Phi-3)的成功,微软团队推出了Phi-4,一个14B参数的模型。Phi-4通过引入创新的合成数据生成方法、优化训练课程和数据混合,以及在训练后引入新技术,进一步提升了小型语言模型的性能。

图片

 

Phi-4的训练数据主要由合成数据构成,这些数据通过多智能体提示、自我修订工作流和指令反转等技术生成。这些方法使得模型在推理和问题解决能力上得到了显著提升,弥补了传统无监督数据集的不足。合成数据在Phi-4的训练后阶段也发挥了关键作用,通过拒绝采样和一种新颖的直接偏好优化(DPO)方法,进一步优化了模型的输出。

图片

 

2. 数据处理方法

Phi-4的预训练阶段主要依赖于通过多种技术生成的合成数据集。此外,团队还采用了多种方法来过滤有机数据源,这些数据源既作为预训练的补充数据集,也作为生成合成数据的种子。

2.1 合成数据的目的

合成数据作为预训练的重要组成部分,越来越常见。Phi系列模型一直强调合成数据的重要性。与有机数据相比,合成数据有几个直接优势:

  • • 结构化和渐进式学习:在有机数据集中,标记之间的关系通常复杂且间接。相比之下,合成数据可以以易于消化的方式呈现挑战,帮助模型更有效地学习。

  • • 与推理上下文的对齐:合成数据通常更接近我们期望模型生成的输出格式。训练这种数据有助于将模型的预训练经验与其在推理过程中遇到的情景对齐。

2.2 预训练和中训练中的合成数据

团队创建了50种广泛的合成数据集,每种数据集依赖于不同的种子和多阶段提示程序,涵盖了各种主题、技能和交互性质,累计约4000B未加权标记。这些数据集通过多步骤提示工作流将种子转化为合成数据,包括重写、自我修订和指令反转等技术。

2.3 网络和问答数据的筛选

团队收集了数千万个高质量的有机问题和解决方案,并通过多种方式对这些数据进行筛选和增强。此外,团队还从网络收集了各种高质量的有机数据源,优先考虑推理密集和细致的材料(如学术论文、教育论坛和编程教程)。

3. 预训练细节

Phi-4的预训练阶段是其成功的关键之一。这一部分详细介绍了模型的架构、训练过程、数据组成以及中训练阶段的细节。通过这些精心设

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值