强大的轻量级多模态基础模型Phi-4-MultiModal-Instruct来了！

最新推荐文章于 2025-06-03 15:30:44 发布

原创最新推荐文章于 2025-06-03 15:30:44 发布

· 419 阅读

·

9

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#gpt #模型训练 #人工智能

AI顿悟之旅专栏收录该内容

4 篇文章

订阅专栏

微软发布了强大的轻量级多模态基础模型Phi-4-MultiModal-Instruct！该模型目前具有英文的图像理解能力，同时有超过Whisper V3的视频理解能力！

Phi-4-multimodal-instruct是一个轻量级的开放式多模态基础模型，利用Phi-3.5和4.0模型使用的语言、视觉和语音研究以及数据集。该模型处理文本、图像和音频输入，生成文本输出，并带有128K令牌上下文长度。该模型经历了一个增强过程，结合了监督微调、直接偏好优化和RLHF（从人类反馈中强化学习），以支持精确的指令遵守和安全措施。每个模态支持的语言如下：

文本：阿拉伯语、中文、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、希伯来语、匈牙利语、意大利语、日语、韩语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、泰语、土耳其语、乌克兰语
视觉：英语
音频：英语、中文、德语、法语、意大利语、日语、西班牙语、葡萄牙语

预期用途

主要用例

该模型适用于广泛的多语言和多模态商业和研究用途。该模型提供了需要

内存/计算受限环境
延迟受限场景
强大的推理能力（尤其是数学和逻辑）
函数和工具调用
一般图像理解
光学字符识别
图表和表格理解
多幅图像比较
多图像或视频剪辑摘要
语音识别
语音翻译
语音问答
语音摘要
音频理解

该模型旨在加速对语言和多模态模型的研究，用作生成AI驱动功能的构建块。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。