Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量171

点赞数 4

CC 4.0 BY-SA版权

分类专栏： LLM Daily Multimodal 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/146190572

LLM Daily 同时被 2 个专栏收录

1689 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Multimodal

164 篇文章

订阅专栏

摘要

我们推出了Phi-4-Mini和Phi-4-Multimodal，这两款模型小巧但功能强大，分别是语言模型和多模态模型。Phi-4-Mini是一个拥有38亿参数的语言模型，在高质量的网页数据和合成数据上进行训练。它在性能上显著超越了近期类似规模的开源模型，在需要复杂推理的数学和编码任务上，表现与参数规模为其两倍的模型相当。这一成果得益于精心策划的合成数据方案，该方案着重采用了高质量的数学和编码数据集。与前身Phi-3.5-Mini相比，Phi-4-Mini的词汇表规模扩展到了20万个词元，以更好地支持多语言应用，并且采用了分组查询注意力机制，使长序列生成更加高效。Phi-4-Multimodal是一款多模态模型，它将文本、视觉、语音/音频输入模态集成到一个模型中。其创新的模态扩展方法利用了低秩适应（LoRA）适配器和特定模态路由器，支持多种模态组合的推理模式，且各模态之间互不干扰。例如，尽管语音/音频模态的LoRA组件仅有4.6亿个参数，但Phi-4-Multimodal目前在OpenASR排行榜上位居榜首。Phi-4-Multimodal支持涉及（视觉+语言）、（视觉+语音）和（语音/音频）输入的场景，在广泛的任务中表现优于更大的视觉语言和语音语言模型。此外，我们通过实验进一步训练Phi-4-Mini以增强其推理能力。尽管这个实验版本的模型参数仅为38亿，但它的推理性能与大得多的模型相当，甚至超越了它们，其中包括DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-8B。