论文链接:https://arxiv.org/abs/2509.17765
文章目录
引言
Qwen3-Omni是一个单一多模态模型,首次在文本、图像、音频和视频四大模态上实现SOTA性能,且相较于单模态同类模型,性能未出现任何衰减。Qwen3-Omni的性能与Qwen系列中同规模的单模态模型相当,且在音频任务上表现尤为突出。在36个音频及音视频基准测试中,Qwen3-Omni在32个基准上达到开源领域顶尖水平,在22个基准上实现整体顶尖水平,其性能超越了Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等性能强劲的闭源模型。
Qwen3-Omni采用 “思考者 - 对话者” 混合专家(Thinker–Talker Mixture-of-Experts,MoE)架构,该架构统一了文本、图像、音频和视频的感知与生成能力,能够输出流畅的文本和自然的实时语音。它支持119种语言的文本交互、19种语言的语音理解以及10种语言的语音生成。在自动语音识别(ASR)和口语理解任务中,该系统单次可处理时长最长达40分钟的音频文件,能够在不同地区场景下提供高质量的音频及音视频体验。此外,Qwen3-Omni具备出色的指令遵循能力,用户可通过自定义系统提示词,对对话语气和角色人设进行精细化定制。
为降低流式合成中的首包延迟,“对话者”(Talker)模块采用多码本方案,通过自回归方式预测离散语音编解码器。借助这些编解码器的表征能力,用轻量级因果卷积神经网络(ConvNet)替代了计算密集型的块扩散技术,实现了从第一帧编解码器帧开始的流式输出。在冷启动场景(无前置上下文)下,Qwen3-Omni 的理论端到端首包延迟可达 234 毫秒。
为进一步强化多模态推理能力,引入 “思考者”(Thinking)模型,该模型能对来自任意模态的输入进行显式推理。鉴于当前研究领域缺乏通用音频描述(audio captioning)模型,对Qwen3-Omni-30B-A3B进行微调,得到了 Qwen3-Omni-30B-A3B-Captioner。该模型可针对任意音频输入,生成细节丰富且幻觉程度低的描述文本。
Qwen3-Omni以Qwen2.5-Omni中提出的 “思考者 - 对话者”(Thinker–Talker)架构为基础,同时引入了五项关键升级:(1)“思考者”(Thinker)与 “对话者”(Talker)均升级为混合专家(Mixture-of-Experts,MoE)设计;(2)用自研的音频 Transformer(AuT)编码器替代 Whisper 音频编码器。该 AuT 编码器基于 2000 万小时有监督音频数据从零开始训练,能生成更优的通用音频表征,且通过块级窗口注意力(block-wise window attention)实现实时预填充缓存(prefill caching);(3)在语音生成侧,采用多码本(multi-codebook)表征方式。该方式的容量提升,可对多样化语音、副语言线索(如语气、语调)及声学现象进行精准建模;(4)“对话者”(Talker)从单轨编解码器建模转向多轨编解码器建模,通过多码本预测(MTP)模块自回归式预测多个码本层;同时,波形生成阶段(Code2Wav,即 “从编码到波形”)用轻量级卷积网络(ConvNet)替代了块级扩散 Transformer(block-wise DiT);(5)输入与输出的音频编码率均降至 12.5 赫兹(Hz),且输出编解码器支持单帧即时语音合成。综上,这些改进可在工业级部署的高并发场景下,实现低延迟语音交互。
与Qwen2.5-Omni相比,Qwen3-Omni带来了四项主要改进:(1)支持对时长超过 40 分钟的输入进行音频理解;(2)扩展了语言覆盖范围,可支持 119 种书面语言,语音理解和语音生成分别支持 19 种和 10 种语言;(3)新增 “思考者”(Thinking)模型,能够实现全模态推理,涵盖音视频场景及纯音频场景;(4)提升了流式处理性能,端到端延迟可低至 234 毫秒。
架构

图1展示了完整了Qwen3-Omni架构;其中,“思考者”(Thinker)负责文本生成任务,“对话者”(Talker)则专注于生成流式语音令牌(token),其所需的高层级表征直接从 “思考者” 处获取。为实现超低延迟流式处理,“对话者” 通过自回归方式预测多码本序列。在每个解码步骤中,多码本预测(MTP)模块输出当前帧的残差码本;随后,“编码转波形”(Code2Wav)渲染器会增量式合成对应的波形信号,从而实现逐帧流式生成。
概述
如图1所示,Qwen3-Omni采用 “思考者 - 对话者”(Thinker-Talker)架构。与Qwen2.5-Omni相比,Qwen3-Omni为实现更强的扩展性与可控性,做出了如下改进:
- Thinker与Talker均采用MoE架构,以支持高并发处理与快速推理;
- Talker不再接收Thinker的高层级文本表征,仅以音频和视觉多模态特征作为条件(进行语音生成)。该设计的核心考量如下:(1)对于文本内容而言,离散token与嵌入向量在信息层面具有等效性;(2)多模态条件控制对于 “音视频协同语音生成” 至关重要,例如在语音翻译任务中需保持语音的韵律与音色。此外,这种解耦设计允许外部模块(如检索增强生成(RAG)、函数调用、安全过滤器等)对 Thinker的文本输出进行干预;若有需求,还可通过受控预处理将文本提供给Talker,以支持流式合成;
- 由于文本表征实现了解耦,Thinker与Talker可采用不同的系统提示词,分别对Thinker的响应风格与 Talker 的音频风格进行独立控制;
- Talker采用多码本自回归方案:Talker每一步生成一个编解码器帧,而MTP模块则生成其余的残差码本;
- Code2Wav模块采用轻量级因果ConvNet实现,简化了音频合成的最后阶段。
在训练与推理过程中,Talker直接接收来自Thinker的高维多模态特征,并共享对完整对话历史的访问权限。因此,该系统可作为一个紧密协同的单一模型运行,能够实现端到端训练与统一推理。
Audio Transformer/AuT

Audio Transformer,简称 AuT,是一种注意力编码 - 解码模型,如图2所示。AuT基于 2000 万小时有监督音频数据从零开始训练而成。训练过程中,音频的滤波器组特征/filter bank features在进入注意力层之前,会通过二维卷积块进行8倍下采样,将token速率降至12.5Hz。为学习更优质、更通用的音频表征,AuT在大规模音频数据集上开展训练,训练任务同时涵盖语音识别与音频理解。具体而言,训练数据包含80%的中英文ASR数据、10%的其他语言ASR数据,以及10%的音频理解数据。为平衡实时预填充缓存/prefill caching的效率与离线音频任务的性能,AuT采用带有动态注意力窗口大小的flash attention技术,覆盖的注意力查询模式时间范围为1至8秒。在Qwen3-Omni中,将AuT编码器用作音频编码器,该编码器包含约0.6B个参数。
Perceivation/感知模块
文本、音频、图片、不含音频的视频
Thinker会将文本、音频、图像及视频转换为一系列表征向量作为输入。具体处理方式如下:对于文本输入,采用Qwen系列的分词器,该tokenizer基于字节级字节对编码技术,词汇表包含151643个常规tokens。对于音频输入及从视频中提取的音频,先将其重采样至16kHz,再将原始波形转换为128通道的梅尔频谱图——转换过程中采用25ms的窗口长度和10ms的步长。选用AuT编码器作为音频编码器,该编码器基于2000万小时音频数据从零开始训练,其输出的每个音频表征帧对应原始音频信号中约80毫秒的片段。此外,采用Qwen3-VL的视觉编码器,该编码器以SigLIP2-So400m为初始化权重,包含约5.43亿个参数,可同时处理图像与视频输入。该视觉编码器在图像与视频混合数据集上完成训练,确保具备出色的图像理解与视频理解能力。为在与音频采样率对齐的同时,尽可能完整地保留视频信息,采用动态帧率对视频帧进行采样。
视频及多模态位置编码/TM-RoPE
受Qwen2.5-Omni启发,采用时间对齐多模态旋转位置嵌入,简称TM-RoPE。该嵌入方法在多模态旋转位置嵌入M-RoPE的基础上进行扩展,融入了绝对时间信息。TM-RoPE将传统的旋转位置嵌入分解为三个不同维度:时间维度、高度维度和宽度维度。在原始的M-RoPE设计中,时间依赖关系通过前16个旋转角度建模,这些角度对应更高的频率,且呈现出更强的振荡模式。这种设计虽能有效捕捉细粒度的局部时间变化,但可能会阻碍模型对长序列的外推能力。为解决这一局限,提出一种改进的旋转角度分配方案:具体而言,时间、高度、宽度三个维度的角度分配采用交错方式,分别分配24个、20个和20个旋转角度。这种重新分配使模型对局部语义和长距离依赖的表征更加均衡,从而提升整体性能。TM-RoPE的应用会根据输入数据的特定模态进行调整。对于文本输入,三个维度共享相同的位置标识,使得TM-RoPE在功能上等同于一维RoPE;对于音频输入,同样采用共享位置标识,但额外增加了绝对时间编码,其中每个时间标识对应80毫秒的时长;对于图像数据,所有视觉tokens被分配一个固定的时间标识,而其高度和宽度标识则由各自不同的行、列位置决定。
在多模态音视频流场景中,音频部分每80毫秒对应一个时间标识进行编码。视频则被视为一帧帧图像序列,其时间标识按单调递增方式分配,且会根据视频的实际时间戳动态调整,以确保每个时间标识对应80毫秒的统一时间分辨率。视频帧的高度标识与宽度标识,采用与静态图像相同的分配方式。为避免处理多模态数据时出现位置冲突,位置编号采用连续编排方式:每一种后续模态的位置编号,均从前一种模态的最大位置标识加1开始。这种经过优化的位置编码方案,能让模型有效整合并联合建模来自不同模态的信息。Qwen2.5-Omni会将音视频表征分割为固定的2秒片段,而Qwen3-Omni则与之不同,它通过时间标识直接对音视频表征进行对齐,且这些时间标识明确锚定到绝对时间。这一设计选择使模型具备了灵活支持任意时长流式输入的能力。
音频生成
在多轮对话的语音合成场景中,Talker模块以从Thinker组件继承的丰富上下文为条件进行语音生成,这些上下文包括历史文本tokens、多模态表征以及当前轮次的流式文本。这种对长上下文信息的依赖至关重要,因为高保真度语音合成必须使韵律、音量、情感等声学属性与当前对话内容相适配,这是上下文感知生成模型中已被充分验证的核心原则。
在架构层面,直接基于残差向量量化令牌/RVQ tokens进行运算。Talker采用分层预测方案:其主干网络接收当前帧的聚合码本特征,通过线性头预测第0码本;随后,多令牌预测(MTP)模块生成所有残差码本。该策略能让模型学习到声学细节的完整表征,从而提升语音表现力。因此,波形重建过程被简化为一个轻量级因果卷积神经网络,即 “编码转波形”(Code2Wav)模块。相较于更复杂的、基于DiT的声码器,该设计在显著降低推理延迟与计算成本的同时,还实现了更优的音频保真度。
针对流式与并发的设计
在流式音视频交互场景中,首包延迟是影响用户体验的关键因素,而模型的并发能力则是降低服务成本、提升响应速度的核心。本小节阐述Qwen3-Omni如何通过算法与架构优化,实现并发能力的增强与首包延迟的降低。
分块预填充与混合专家架构
在Qwen3-Omni中,保留了Qwen2.5-Omni所采用的分块预填充/chunked-prefilling机制;Qwen2.5-Omni的音频编码器与视觉编码器能够沿时间维度输出数据块。在实时交互过程中,Thinker与Talker模块会执行异步预填充:当Thinker完成当前数据块的预填充后,其输出的高层级表征会立即用于异步预填充Talker的当前数据块,与此同时,Thinker会开始预填充自身的下一个数据块。该方法大幅降低了Thinker与Talker两者的首令牌生成时间(Time-To-First-Token,简称 TTFT)。在架构层面,Qwen3-Omni中的Thinker与Talker均采用MoE设计,这种设计对提升服务吞吐量效果显著。与密集型模型相比,MoE架构在处理长序列时,能大幅减少因键值缓存产生的IO消耗,进而提高生成过程中的每秒令牌数(tokens per second,简称 TPS),增强并发能力。
流式多码本编解码器生成
为最大限度缩短用户等待接收首个生成数据包的时间,提出一种 “仅左上下文”(left context only)多码本生成机制。如图1所示,一旦Talker生成第一个token,MTP模块便会预测当前帧的其余令牌。随后,这些令牌会通过一个 “流式多码本编解码器解码器”解码为波形,该解码器仅关注左上下文,即已生成的历史数据。Qwen2.5-Omni 需要等待Talker提供足够的块上下文后才能进行合成,而Qwen3-Omni则不同,在Talker生成每个token后,即可立即输出波形,这一设计大幅降低了首包延迟。
轻量级MTP模块与卷积神经网络
MTP块与编解码解码器均为轻量级模块,二者计算量FLOPs低且支持批量推理,非常适合高并发场景。其中,MTP模块是一种超轻量级的固定步长自回归密集型Transformer,对推理硬件的内存带宽需求较低,因此天然具备对高吞吐量请求的高效批量处理能力。其固定步长自回归推理机制,使其能够有效利用固定的KV cache内存空间进行加速,从而实现低推理延迟。同时,基于卷积神经网络的编解码解码器也实现了高吞吐量与低延迟,这是因为其卷积架构在各类推理平台上均能获得广泛的硬件加速支持,且支持高效的批量推理。
![[图片]](https://i-blog.csdnimg.cn/direct/ebaa0eb0a86c4db3b8b4b94972a04623.png#pic_center)
![[图片]](https://i-blog.csdnimg.cn/direct/aa49c45318b6422591f6d8dfa0f00dec.png#pic_center)
表2展示了在典型计算资源、不同并发场景下,Qwen3-Omni的理论首包延迟。实验基于vLLM框架开展,用于处理并发音视频流;同时通过torch.compile工具与CUDA Graph加速技术,对MTP模块及codec decoder进行了优化。影响总首包延迟的因素有多个:首先,Thinker与 Talker的模型规模,会影响其尾包预处理延迟(即音频编码器与视觉编码器的多模态数据预处理及推理耗时)与首令牌生成间隔时间;其次,MTP模块与codec decoder的架构及规模,会影响其推理延迟。由于这些组件之间存在顺序依赖关系,总首包延迟是这些独立延迟的总和。结果显示,Thinker与Talker的MoE架构可确保在高并发场景下,二者的预填充延迟与令牌生成间隔时间基本不受影响。同时,MTP模块与Codec Decoder的轻量级设计将其计算开销降至最低,从而对首包延迟的影响更小。此外,在输出初始数据包、模型开始流式音频合成后,Talker采用12.5Hz的令牌生成速率,仅需一个令牌即可合成80ms的音频。因此,生成实时因子/RFT的计算方式为:将(1)Thinker与 Talker生成一个token所需的时间,以及(2)MTP模块与Codec Decoder处理一个token的时间之和,除以80ms。结果表明,在不同并发水平下,RTF始终保持在1以下,确保用户能接收到连续的流式音频响应。
预训练
Qwen3-Omni在多样化数据集上进行预训练,该数据集涵盖多种语言和方言,如表 3 所示,并包含多种模态,具体包括图文、视频文本、音频文本、视频音频、视频-音频-文本以及纯文本语料库。Qwen2.5-Omni针对每个任务仅使用单一提示词,而Qwen3-Omni则不同,采用更丰富的自然语言提示词,以同时提升模型的泛化能力与指令遵循能力。为使模型在所有模态下均具备稳定性能,训练策略从预训练早期阶段便融入了单模态数据与跨模态数据。Qwen3-Omni预训练分为三个不同阶段:第一阶段:固定大语言模型(LLM)的参数,重点训练视觉编码器与音频编码器。此阶段会利用海量的音频-文本对和图像-文本对数据,以提升大语言模型内部的语义理解能力;第二阶段:解冻所有参数,使用更广泛的多模态数据进行训练,从而实现更全面的知识学习;第三阶段:采用序列长度为32,768的数据开展训练,以增强模型对复杂长序列数据的理解能力。
- 编码器对齐阶段/S1:在预训练初始阶段,Qwen3-Omni的LLM组件以 Qwen3的参数进行初始化,视觉编码器沿用自Qwen3-VL,音频编码器则以AuT为初始化基础。这两个编码器在 “大语言模型参数固定” 的前提下分别开展训练:训练初期,二者均优先训练各自的适配层,之后再对编码器本身进行训练。摒弃了Qwen2.5-VL、Qwen2.5-Omni所采用的训练阶段设计,即 “在大语言模型参数冻结的同时,联合训练编码器与适配层”。因为该方法可能导致编码器去 “补偿” 冻结大语言模型的局限性,进而造成感知能力下降。
- 通用阶段/S2:预训练的第二阶段采用了一个规模约为2T tokens的大规模数据集,其各模态数据分布如下:文本0.57T、音频0.77T、图像0.82T、视频0.05T、视频-音频0.05T。在此阶段,通过引入更多样化的多模态数据与任务,模型在听觉、视觉、文本及音视频信息方面的理解与交互能力得到了提升。
- 长上下文阶段/S3:在预训练的最后一个阶段,将最大tokens长度从8192提升至32768,同时提高了训练数据中长音频与长视频的占比。实验结果表明,这些调整使模型对长序列数据的理解能力得到显著提升。
后训练
Thinker
后训练阶段包含针对 Thinker模块的三阶段训练流程,这一流程使Qwen3-Omni具备了指令遵循能力。训练所用数据集采用ChatML格式构建,包含纯文本对话数据、视觉模态对话数据、音频模态对话数据以及混合模态对话数据。
在第一阶段,引入轻量级的监督微调,通过针对性的指令优化,填补预训练表征与下游任务需求之间的差距。监督微调会刻意偏离预训练数据的模式,同时保持与预训练模型的架构一致性,从而实现高效的知识迁移,并保留预训练特征的完整性。
第二阶段采用了Qwen3中所述的 强到弱蒸馏/Strong-to-Weak Distillation流程,以进一步提升模型性能。该蒸馏过程包含两个主要阶段:
- 离线策略蒸馏:在初始阶段,先融合教师模型生成的输出结果,以此提供响应蒸馏。这一过程能帮助轻量级学生模型掌握基础推理能力,为后续的在策略训练奠定坚实基础。
- 在线策略蒸馏:在第二阶段,学生模型会根据采样得到的提示词生成响应。随后,这些在线策略序列会用于微调:通过最小化KL散度,使学生模型预测的对数概率与教师模型(Qwen3-32B 或 Qwen3-235B-A22B)的对数概率对齐。
最后,利用GSPO全面提升模型在文本、图像、视频、音频等多种模态下的能力与稳定性。为对上述模态提供反馈,采用了两种不同类型的奖励:
- 基于规则的奖励:对于可验证的多模态任务,例如数学计算、代码生成、指令遵循等,奖励信号来源于一组预定义规则。设计良好的基于规则的奖励能够高精度评估模型输出的正确性,避免出现奖励欺骗等问题。
- 基于模型的奖励:对于缺乏客观、预定义评估指标的多模态任务,采用 “大语言模型作为评判者”(LLM-as-a-judge)的方案。在通用任务中,由Qwen3承担自动评估器的角色;而在视觉相关任务中,则使用专门的视觉-语言模型Qwen2.5-VL进行评估。为确保评估结果更可靠、更贴合实际任务需求,在适用情况下,会向大语言模型评估器提供对应查询的真值或参考答案。
Talker
为Talker引入了四阶段训练流程,使Qwen3-Omni能够同时生成语音响应与文本响应。所有训练数据均采用ChatML格式构建,以确保与Thinker的数据格式保持一致。
在第一阶段,利用数亿条含多模态上下文的语音数据对Talker进行训练,建立起从多模态表征到语音的单调映射。第二阶段,使用高质量数据开展持续预训练(Continual Pretraining,简称 CPT):这一过程既能缓解第一阶段中噪声数据导致的幻觉问题,又能显著提升生成语音的质量。同时,还会进行长上下文训练,以增强对话生成器处理冗长复杂输入、生成符合上下文语境的语音响应的能力。第三阶段,为提升多语言语音生成的泛化性与系统稳定性,从多样化的多语言语音样本中构建偏好对,并采用DPO对模型进行优化。最后,在上述基础模型上开展说话人微调/speaker fine-tuning:这不仅能让对话生成器采用特定的语音音色,还能优化其语音响应的自然度、表现力与可控性。
Captioner
描述生成是多模态理解领域的基础任务,对于大型多模态模型的训练与评估至关重要。然而,目前绝大多数现有研究都聚焦于视觉描述生成,在很大程度上忽视了音频模态。这一疏漏影响显著,因为听觉感知是人类感官体验以及与世界交互的关键组成部分。为填补这一空白、推动多模态感知领域更全面的研究,提出了Qwen3-Omni-30B-A3B-Captioner模型。该模型通过在大规模详细音频描述数据集上对Qwen3-Omni-30B-A3B进行微调开发而成。最终构建的系统能够为任意音频输入生成细节丰富、幻觉程度低的描述文本。

869

被折叠的 条评论
为什么被折叠?



