点击蓝字
关注我们,让开发变得更有趣
作者 | 杨亦诚 英特尔 AI 软件工程师
Ekaterina Aidova AI 框架工程师
排版 | 吴紫琴
OpenVINO™
多模态大模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,多模态大模型可以可以理解多种不同模态的输入数据,并输出相应反馈结果,例如图像理解,语音识别,视觉问题等。

图:多模态大模型任务流程
多模态大模型都会将文本生成模型作为底座模型,以支持对话能力,其中千问团队近期发布的 Qwen2-Audio 和 Qwen2-VL 便是以 Qwen2 为底座的多模态大模型,分别支持语音/文本以及图像/文本作为多模态输入,相比上一代的 Qwen-VL 和 Qwen-Audio ,基于 Qwen2 的多模态模型具备更强大的视觉理解以语音理解能力,并实现了多语种的支持。本文将分享如何利用 OpenVINO™ 工具套件在轻薄本上部署 Qwen2-Audio 以及 Qwen2-VL 多模态模型。
Qwen2-Audio 示例地址:
https://github.com/openvinotoolkit/openvino_notebooks/blob/latest/notebooks/qwen2-audio/qwen2-audio.ipynb
Qwen2-VL 示例地址:
https://github.com/openvinotoolkit/openvino_notebooks/blob/latest/notebooks/qwen2-vl/qwen2-vl.ipynb
Qwen2 workshop:
https://github.com/openvino-dev-samples/qwen2-openvino-workshop
OpenVINO™
Qwen2-VL
1. 模型转换及量化
目前 Qwen2-VL 的推理任务还没有被完全集成进 Optimum 工具中,因此我们需要手动完成模型的转换和量化,其中包含语言模型 lang_model,图像编码模型 image_embed,文本 token 编码模型 embed_token 模型以及图像特征映射模型 image_embed_merger。
为了简化转化步骤,我们提前对这些转化任务行进行了封装,开发者只需要调用 Qwen2-VL 示例地址中提供的函数便可完成这些模型的转换,并对其中负载最大的语言模型进行量化。这里以 Qwen2-VL-2B-Instruct 为例。

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



