Qwen2.5-Omni：开创全模态AI新时代

最新推荐文章于 2025-04-13 18:57:24 发布

OpenCSG

最新推荐文章于 2025-04-13 18:57:24 发布

阅读量865

点赞数 8

CC 4.0 BY-SA版权

文章标签：人工智能开源社区算法

本文链接：https://blog.youkuaiyun.com/OpenCSG/article/details/146607315

3月27日凌晨，阿里通义千问团队发布了其最新的技术成果——Qwen2.5-Omni，这是一个跨越音频、视频、图像和文本的全模态大模型。Qwen2.5-Omni不仅能够无缝地处理多模态输入，还能实时生成文本和自然语音响应，展现出前所未有的多模态理解和生成能力。作为Qwen系列的旗舰级产品，Qwen2.5-Omni集成了最先进的技术和创新架构，是人工智能领域的一项突破性进展。

模型亮点

创新架构：Thinker-Talker 双核设计

Qwen2.5-Omni 的核心架构是创新性的Thinker-Talker设计。Thinker模块如同大脑，负责理解并处理来自文本、图像、音频和视频等模态的信息，生成高级语义表示和对应文本。Talker模块则类似人类的发声器官，接收Thinker的输出，将其转化为流畅的语音Token并生成语音响应。

这种分工协作的架构使得Qwen2.5-Omni能够在多个任务中表现出色，从复杂的音视频推理到实时的语音交互都能高效完成。整个模型的训练和推理过程是端到端的，这意味着各个模块可以共享上下文信息，确保不同模态之间的高度协调。

TMRoPE位置编码：精确同步视频与音频

为了精确同步视频和音频输入，Qwen2.5-Omni提出了TMRoPE（Time-aligned Multimodal RoPE）这一创新的位置编码方法。该方法通过对音频和视频的时间轴进行精确对齐，确保不同模态的信息能够有效融合。TMRoPE通过多维位置编码，增强了模型对时间相关性的建模能力，使得视频和音频的结合更加精准。

这一创新设计解决了多模态模型面临的时间同步问题，大大提升了模型对复杂场景的理解和生成能力，尤其是在涉及实时交互的任务中，Qwen2.5-Omni能够实现更自然流畅的表现。

流式编解码器生成

为了便于音频流式传输，特别是对于较长的序列，Qwen2.5-Omni提出了一种滑动窗口块注意力机制，限制当前标记对有限上下文的访问。具体来说，使用Flow-Matching（Lipman等）DiT模型。

输入代码通过Flow-Matching转换为梅尔频谱图，然后通过修改后的BigVGAN（Lee等）将生成的梅尔频谱图重新构造成波形。

卓越性能：Qwen2.5-Omni的强大能力

Qwen2.5-Omni的卓越性能是其最大的亮点之一。无论是在单模态还是多模态任务中，该模型都展现了超越同类的表现，尤其在多模态融合和实时语音生成领域，Qwen2.5-Omni更是取得了显著的突破。

1. 多模态基准测试中的领先表现

在多模态任务的OmniBench等基准测试中，Qwen2.5-Omni表现出色，达到SOTA（state-of-the-art，最先进）的水平。该模型在音频、视频、图像等多个领域的理解能力远超同规模的单模态模型，并且在多模态任务中也具有无与伦比的优势。

2. 语音指令跟随能力：与文本输入相媲美

Qwen2.5-Omni在端到端语音指令跟随方面的能力表现也非常突出。与传统的语音识别系统不同，Qwen2.5-Omni不仅能够精准识别语音指令，还能理解复杂的上下文信息并作出回应。这种能力在MMLU（通用知识理解）和GSM8K（数学推理）等基准测试中得到了验证，其表现与基于文本输入的模型相当，甚至超越了其他同类模型。

3. 语音生成的自然性和稳定性

Qwen2.5-Omni在语音生成方面的表现也相当卓越。在实时流式语音生成任务中，Qwen2.5-Omni不仅能够流畅地生成自然语音，还在鲁棒性和稳定性上超越了现有的许多流式和非流式替代方案。通过独特的双轨自回归模型和优化的滑动窗口机制，Qwen2.5-Omni实现了低延迟的音频生成，能够快速响应用户指令。

4. 图像和视频理解的出色能力

Qwen2.5-Omni在图像和视频理解方面的能力也表现得相当出色。在与Qwen2.5-VL和其他视觉语言模型的对比中，Qwen2.5-Omni在多个视觉任务（如MMMU、MathVision、MMStar等）中均表现优异，尤其在处理复杂的图像和视频推理时，Qwen2.5-Omni展现出了出色的多模态融合能力。它能够理解视频中的动态内容，并在语音或文本响应中进行准确的推理。

5. 高效的音频理解和推理能力

在音频理解方面，Qwen2.5-Omni表现出了超越现有技术的强大能力。通过在音频-文本对齐、语音到文本翻译（S2TT）、语音实体识别（SER）等任务上的优化，Qwen2.5-Omni能够高效地处理多样化的音频输入。特别是在MMAU等音频推理基准测试中，Qwen2.5-Omni展现了最先进的性能，成为了音频理解领域的领军者。