强大的轻量级多模态基础模型Phi-4-MultiModal-Instruct来了!

微软发布了强大的轻量级多模态基础模型Phi-4-MultiModal-Instruct!该模型目前具有英文的图像理解能力,同时有超过Whisper V3的视频理解能力!

        Phi-4-multimodal-instruct是一个轻量级的开放式多模态基础模型,利用Phi-3.5和4.0模型使用的语言、视觉和语音研究以及数据集。该模型处理文本、图像和音频输入,生成文本输出,并带有128K令牌上下文长度。该模型经历了一个增强过程,结合了监督微调、直接偏好优化和RLHF(从人类反馈中强化学习),以支持精确的指令遵守和安全措施。每个模态支持的语言如下:

  • 文本:阿拉伯语、中文、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、希伯来语、匈牙利语、意大利语、日语、韩语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、泰语、土耳其语、乌克兰语
  • 视觉:英语
  • 音频:英语、中文、德语、法语、意大利语、日语、西班牙语、葡萄牙语

预期用途

主要用例

该模型适用于广泛的多语言和多模态商业和研究用途。该模型提供了需要

  1. 内存/计算受限环境
  2. 延迟受限场景
  3. 强大的推理能力(尤其是数学和逻辑)
  4. 函数和工具调用
  5. 一般图像理解
  6. 光学字符识别
  7. 图表和表格理解
  8. 多幅图像比较
  9. 多图像或视频剪辑摘要
  10. 语音识别
  11. 语音翻译
  12. 语音问答
  13. 语音摘要
  14. 音频理解

该模型旨在加速对语言和多模态模型的研究,用作生成AI驱动功能的构建块。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值