Qwen 团队最近(2025 年 3 月)发布了一款统一多模态大模型 Qwen2.5-Omni,开放了 7B 版本的权重。能够同时处理文本、图像、音频和视频输入,并以流式方式生成文本和语音响应。核心创新包括:
- 时间对齐的多模态位置编码(TMRoPE):通过改进的 RoPE 机制实现音视频时序同步;
- Thinker-Talker 架构:分离认知(文本生成)与执行(语音生成)模块,避免模态干扰;
- 流式处理技术:块状编码和滑动窗口 DiT 模型降低延迟。实验表明,该模型在 OmniBench 等多模态基准测试中达到 SOTA,语音指令跟随能力接近纯文本输入水平(MMLU 65.6 vs 69.3),语音生成 WER 指标(中文 1.42%)优于同类模型。
PS:
- 虽然只有 7B(HF 上实际参数量似乎要稍多一些,大概有个 10B 左右,不知道具体怎么算的),但想在消费级的硬件上部署还是有一些吃力的。我尝试在自己的 4090 显卡上测试了一下,生成速度比较慢,离真实应用还有比较大的距离。
- 期待 llama.cpp 这些引擎能支持,有量化的版本出来。
- 不过感觉这个架构有点「另类」,社区有没有兴趣为这个架构做优化,还不好说。
主要内容
1、 作者和团队信息
- 核心团队:由 Qwen 团队开发,核心贡献者包括 Jin Xu、Zhifang Guo 等,团队此前已发布 Qwen-VL、Qwen-Audio 等知名多模态模型。
- 技术继承:模型基于 Qwen2.5-7B 语言模型,视觉编码器继承 Qwen2.5-VL,音频编码器改进自 Whisper-large-v3。
2、 背景和动机
-
发表时间:2025 年 3 月(技术报告)
-
研究问题:如何构建一个统一的端到端多模态模型,使其能够像人类一样同时感知多种模态的信息(文本、图像、音频、视频),并以流式方式生成文本和自然语音响应。
-
问题背景:现有大模型多为单模态(如 LLM)或双模态(如 LVLM),缺乏统一的多模态实时交互能力。人类沟通本质是多模态同步进行的,需要模型
具备:
- 跨模态联合表征能力
- 实时流式处理
- 多模态输出防干扰
创新点:首次实现四模态统一建模,突破音视频同步、流式生成等关键技术。
概念补充:
- 端到端模型(End-to-End Model):直接从原始输入到最终输出进行学习的模型,无需手动设计中间步骤。
- 多模态学习(Multimodal Learning):研究如何让模型学习和理解来自多种不同模态的信息。
- 流式处理(Streaming Processing):以连续不断的数据流作为输入进行处理,并实时生成输出。
3、 相关研究
模型类型 | 代表工作 | 局限性 |
---|---|---|
纯语言模型 | LLaMA-3/GPT-4 | 无多模态输入能力 |
视觉语言模型(LVLM) | Qwen-VL、MiniGPT-4 | 缺乏音频处理 |
音频语言模型(LALM) | Whisper、Qwen-Audio | 无视觉理解 |
多模态模型 | Gemini 1.5、AnyGPT | 流式生成延迟高 |
4、 核心思路
Qwen2.5-Omni 的核心思路是构建一个统一的端到端多模态模型,通过以下关键技术实现多模态信息的感知和生成:
- TMRoPE(Time-aligned Multimodal RoPE):一种新的位置编码方法,用于同步音频和视频的时间戳,从而更好地整合多模态信息。
- Thinker-Talker 架构:将模型分为 Thinker(负责文本生成)和 Talker(负责语音生成)两个模块,Thinker 为 Talker 提供高级表示,实现文本和语音的协同生成,避免模态间的干扰。
- 分块流式处理:对音频和视觉编码器进行改进,采用分块处理方法,实现对多模态信息的实时理解和预填充(pre-filling)。
- 滑动窗口 DiT(Denoising Diffusion Transformer):用于流式语音生成,限制感受野,减少初始延迟。
- 灵感来源:Thinker-Talker 架构的设计灵感来源于人类利用不同器官产生不同信号的方式,这些信号通过神经网络进行协调。
5、 方案与技术
整体架构:Thinker-Talker 架构。
- Thinker:Transformer 解码器,负责处理文本、音频、图像和视频等多种模态的输入,生成高级表示和相应的文本。
- Talker:双轨自回归 Transformer 解码器,接收来自 Thinker 的高级表示和文本 tokens,生成离散的语音 tokens。
感知模块:
- 文本:使用 Qwen 的 tokenizer 进行 tokenization。
- 音频:重采样到 16kHz,转换为 128 通道的 mel 频谱图,使用 Qwen2-Audio 的音频编码器。
- 图像和视频:使用 Qwen2.5-VL 的视觉编码器(基于 Vision Transformer),采用混合训练方案,同时处理图像和视频数据。
TMRoPE:
-
将原始的旋转位置编码(RoPE)分解为时间、高度和宽度三个分量。
-
为不同模态分配不同的位置 ID,并引入绝对时间位置编码。
-
对于视频,根据实际时间动态调整帧之间的时间 ID,确保时间 ID 与 40ms 的音频片段对应。
时间交错算法:
- 将视频和音频片段按 2 秒的间隔分块。
- 在每个 2 秒的块内,将视觉表示放在前面,音频表示放在后面,交错排列。
生成模块:
- 文本生成:Thinker 通过自回归采样生成文本。
- 语音生成:Talker 自回归生成音频 tokens 和文本 tokens。
流式处理:
- 分块预填充:修改音频和视觉编码器,支持沿时间维度的分块注意力机制。
- 滑动窗口 DiT:限制 DiT 模型的感受野,使用滑动窗口块注意力机制,实现流式 mel 频谱图生成。
三阶段训练法:
- 模态对齐:冻结 LLM 参数,单独训练视觉/音频编码器
- 联合微调:解冻所有参数,使用 800B 图像文本 +300B 音频文本数据
- 长序列适应:32k token 长度训练提升长视频理解能力
6、实验与结论
实验设计:
- 多模态 benchmark:OmniBench、AV-Odyssey Bench
- 语音 benchmark:MMLU、GSM8K
- 语音生成 benchmark:seed-tts-eval
实验结果:
- Qwen2.5-Omni 在多模态 benchmark 上取得了 state-of-the-art 的性能。
- 在语音指令跟随任务中,Qwen2.5-Omni 的性能与使用文本输入时相当。
- 在语音生成方面,Qwen2.5-Omni 的流式 Talker 在鲁棒性和自然度方面优于现有的大部分流式和非流式方法。
实验结论:
- Qwen2.5-Omni 在多模态理解和生成方面具有强大的能力。
- TMRoPE 和 Thinker-Talker 架构有效地提升了模型的多模态处理能力。
- 分块流式处理和滑动窗口 DiT 有效地降低了语音生成的延迟。
7、贡献
- 提出了 Qwen2.5-Omni:一个统一的模型,可以感知所有模态,并以流式方式同时生成文本和自然语音响应。
- 提出了 TMRoPE:一种新的位置编码算法,显式地结合了时间信息,用于同步音频和视频。
- 提出了 Thinker-Talker 架构:用于促进实时理解和语音生成。
- 性能优越:Qwen2.5-Omni 在所有模态上都表现出强大的性能,尤其是在语音指令跟随和多模态任务方面。
8、不足
- 对视频 OCR 和音视频协同理解的关注不足:论文中提到,在模型开发过程中,发现了一些之前研究人员经常忽略的关键问题,例如视频 OCR 和音视频协同理解。
- 需要更全面的评估 benchmark 和数据集:为了更好地评估和提升模型的多模态能力,需要学术界和工业界合作,构建更全面的评估 benchmark 和研究数据集。
- 输出模态单一:目前的模型主要输出文本和语音,未来可以扩展到图像、视频和音乐等更多模态。
那么,如何系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!