Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs

摘要

我们推出了Phi-4-Mini和Phi-4-Multimodal,这两款模型小巧但功能强大,分别是语言模型和多模态模型。Phi-4-Mini是一个拥有38亿参数的语言模型,在高质量的网页数据和合成数据上进行训练。它在性能上显著超越了近期类似规模的开源模型,在需要复杂推理的数学和编码任务上,表现与参数规模为其两倍的模型相当。这一成果得益于精心策划的合成数据方案,该方案着重采用了高质量的数学和编码数据集。与前身Phi-3.5-Mini相比,Phi-4-Mini的词汇表规模扩展到了20万个词元,以更好地支持多语言应用,并且采用了分组查询注意力机制,使长序列生成更加高效。Phi-4-Multimodal是一款多模态模型,它将文本、视觉、语音/音频输入模态集成到一个模型中。其创新的模态扩展方法利用了低秩适应(LoRA)适配器和特定模态路由器,支持多种模态组合的推理模式,且各模态之间互不干扰。例如,尽管语音/音频模态的LoRA组件仅有4.6亿个参数,但Phi-4-Multimodal目前在OpenASR排行榜上位居榜首。Phi-4-Multimodal支持涉及(视觉+语言)、(视觉+语音)和(语音/音频)输入的场景,在广泛的任务中表现优于更大的视觉语言和语音语言模型。此外,我们通过实验进一步训练Phi-4-Mini以增强其推理能力。尽管这个实验版本的模型参数仅为38

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值