阿里首个全模态大模型Qwen2.5-Omni-7B

最新推荐文章于 2025-08-03 14:17:12 发布

mzgong

最新推荐文章于 2025-08-03 14:17:12 发布

阅读量896

点赞数 28

CC 4.0 BY-SA版权

文章标签：人工智能 Qwen 大语言模型

本文链接：https://blog.youkuaiyun.com/JimmyGoong/article/details/146550105

简介

3月27日凌晨，阿里巴巴发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B。Qwen2.5-Omni-7B 是一个端到端的多模态模型，旨在感知多种模态，包括文本、图像、音频和视频，同时以流式方式生成文本和自然语音响应。感知四种模态、流式生成文本和语音，太强大了。

这张图片展示了 Qwen2.5-Omni 多模态模型的不同交互功能，具体如下：

中心部分：呈现了 Qwen2.5-Omni 的架构，包含视觉编码器（Vision Encoder）和音频编码器（Audio Encoder）用于感知信息，Qwen2.5-Omni Thinker 进行处理，Qwen2.5-Omni Talker 结合 Streaming Codec Decoder 生成回应，支持语音输出。
四种交互场景
- Video-Chat（视频聊天）：用户询问视频中左右两人分别说了什么，模型以语音形式回复两人的话语内容。
- Text-Chat（文本聊天）：用户请模型帮忙写母亲节留言，模型以文本形式输出一段对母亲表达感恩的话语。
- Image-Chat（图像聊天）：用户请求解答黑板上的数学题，模型以语音形式给出解题思路和答案。
- Audio-Chat（音频聊天）：用户请模型描述一段音乐，模型以语音形式描述了音乐的调式、节拍、和弦进行和节奏等信息。

Qwen2.5-Omni 多模态模型的工作架构，具体如下：

底部输入层：视觉编码器（Vision Encoder）接收视频画面（以不同帧展示，有高度和宽度维度），音频编码器（Audio Encoder）接收音频信号（以波形展示，有时间维度），同时还可以输入文本（如 “Please describe this video with audio...”）。
中间处理层：Qwen2.5-Omni Thinker 处理来自视觉、音频编码器的隐藏状态（分别为 Vision Hidden、Audio Hidden）以及文本隐藏状态（Text Hidden）等信息，图中用不同颜色方块表示各类 token 和隐藏状态，箭头指示数据的前向传播（Forward Propagation）和反向传播（Backward Propagation）方向。
顶部输出层：Qwen2.5-Omni Talker 基于中间处理结果，通过 Streaming Codec Decoder 生成音频输出（以波形表示），Codec Token 和 Codec Hidden 也参与这一过程。图左上角还有不同颜色方块对应的 token 和隐藏状态的说明。

对比了不同模型在多模态各领域的性能表现，具体如下：

对比模型：包括 Qwen2.5-Omni、Gemini 1.5-Pro、Qwen2-Audio、Qwen2.5-VL、CosyVoice 2，以及 Human（人类表现）。
评估领域：从左到右分别是 Omni（综合多模态，用 OmniBench 评估）、Audio（音频，如 CoVoST2 zh-en 和 MMAU 评估）、Image（图像，如 MMMU 和 MMStar 评估）、Video（视频，用 MVBench 评估）、Speech Generation（语音生成，如 Seed-tts-eval test-hard 和 NMOS 评估）。
结果分析：在需要整合多个模态的任务中，如 OmniBench，Qwen2.5-Omni 达到了最先进的性能。在语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU, MMStar）、视频理解（MVBench）和语音生成（Seed-tts-eval 和主观自然度）等方面表现出色。

马上就可以想打电话一样和大模型对话了！！

先去部署到本地体验一下，后续补发效果。