微软发布了强大的轻量级多模态基础模型Phi-4-MultiModal-Instruct!该模型目前具有英文的图像理解能力,同时有超过Whisper V3的视频理解能力!
Phi-4-multimodal-instruct是一个轻量级的开放式多模态基础模型,利用Phi-3.5和4.0模型使用的语言、视觉和语音研究以及数据集。该模型处理文本、图像和音频输入,生成文本输出,并带有128K令牌上下文长度。该模型经历了一个增强过程,结合了监督微调、直接偏好优化和RLHF(从人类反馈中强化学习),以支持精确的指令遵守和安全措施。每个模态支持的语言如下:
- 文本:阿拉伯语、中文、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、希伯来语、匈牙利语、意大利语、日语、韩语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、泰语、土耳其语、乌克兰语
- 视觉:英语
- 音频:英语、中文、德语、法语、意大利语、日语、西班牙语、葡萄牙语
预期用途
主要用例
该模型适用于广泛的多语言和多模态商业和研究用途。该模型提供了需要
- 内存/计算受限环境
- 延迟受限场景
- 强大的推理能力(尤其是数学和逻辑)
- 函数和工具调用
- 一般图像理解
- 光学字符识别
- 图表和表格理解
- 多幅图像比较
- 多图像或视频剪辑摘要
- 语音识别
- 语音翻译
- 语音问答
- 语音摘要
- 音频理解
该模型旨在加速对语言和多模态模型的研究,用作生成AI驱动功能的构建块。