突破语音智能瓶颈:小米开源MiMo-Audio模型开启语音AGI新纪元
【免费下载链接】MiMo-Audio-7B-Base 项目地址: https://ai.gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Base
五年前,GPT-3凭借自回归语言模型与大规模无标注数据训练,首次展现出强大的上下文学习(ICL)能力,仅通过少量示例即可快速适应新任务,无需重新训练,由此开启了自然语言处理领域的通用人工智能(AGI)时代。然而,在语音领域,传统模型长期受限于对大规模标注数据的依赖,难以实现类人智能的快速任务适应。如今,这一行业瓶颈被小米彻底打破——小米正式宣布开源全球首个原生端到端语音模型Xiaomi-MiMo-Audio。该模型依托创新预训练架构与上亿小时训练数据,在语音领域首次实现基于ICL的少样本泛化能力,通过在提示词中嵌入少量示例,即可让模型无需重新训练便能适配新任务,并在预训练阶段观察到显著的能力"涌现"现象。经过后训练优化,模型进一步激发了在智商、情商、表现力及安全性等维度的跨模态对齐能力,使语音对话在自然度、情感表达与交互适配性上达到高度拟人化水准。
如上图所示,静谧沉思的少年形象隐喻着语音智能领域的突破性探索。这一创新成果充分体现了小米在语音模型架构设计上的深度思考,为行业从业者提供了从"依赖标注"到"自主泛化"的技术转型启示。
当前主流音频语言模型普遍依赖特定任务微调完成专项工作,而人类仅需少量示例或简单指令即可掌握新的音频处理能力。GPT-3已验证,通过扩展文本预训练数据规模能够实现强大的泛化能力,小米研究团队认为这一范式同样适用于语音领域。通过将MiMo-Audio的预训练数据规模扩展至超一亿小时,研究人员成功观察到模型在多类音频任务中展现出少样本学习能力。系统评估显示,MiMo-Audio-7B-Base模型在开源领域的语音智能与音频理解基准测试中均刷新SOTA(State-of-the-Art)性能。值得注意的是,除标准评测指标外,该模型还能泛化至训练数据中未包含的任务场景,如语音转换、风格迁移与语音编辑等,并具备强大的语音延续生成能力,可逼真模拟脱口秀、诗歌朗诵、直播互动及辩论对话等多样化内容创作。在后训练阶段,团队构建了多元化指令调优语料库,并创新性地在音频理解与生成任务中引入思维链机制,最终使MiMo-Audio-7B-Instruct模型在音频理解基准(MMSU、MMAU、MMAR、MMAU-Pro)、语音对话基准(Big Bench Audio、MultiChallenge Audio)及指令式TTS评测中均达到开源领域SOTA水平,部分指标接近或超越闭源商业模型。
实现语音领域基于下一个token预测(next-token prediction)的预训练需突破两大核心技术壁垒。首先是构建能够无损传递语音信息的模型架构。为充分释放next-token预测范式的潜力,必须确保语音信号中的全部信息在模型中完整循环流动,杜绝采用导致副语言信息(如情感、语调、说话风格等)丢失的语音表示方式。这一设计理念使MiMo-Audio与当前主流方案形成显著差异——例如Kimi-Audio采用基于ASR任务训练的语义编码器结合预训练whisper声学编码器,Step-Audio 2则基于语音和音频理解任务训练编码器,两者均存在不同程度的信息损耗。其次是数据规模的大规模扩展(scaling up)。研究表明持续扩大预训练数据规模可带来性能的线性提升,并可能激发出意想不到的涌现能力。为此,小米将训练数据扩展至超亿小时级别,较现有最大开源语音模型的数据量提升一个数量级。
预训练阶段的核心目标是赋予模型语音领域的任务泛化能力,即让模型在训练过程中掌握一系列基础"原子技能",并在推理阶段通过这些技能组合快速适应或识别任何语音任务。团队在预训练方法上坚守核心原则:确保语音信号的所有信息被完整保留并在模型中无损流动。在分词器设计方面,小米提出的MiMo-Audio-Tokenizer包含12亿参数,采用Transformer架构,由编码器、离散化层和解码器组成,以25Hz帧率运行,通过8层残差向量量化(RVQ)每秒生成约200个token。该分词器在1000万小时语音语料库上从零开始训练,融合语义与重建双重优化目标,实现了优异的语音重建质量与下游语言建模效果提升。架构创新方面,为提升对高token速率序列(200 token/秒)的建模效率并缓解语音与文本模态的长度差异,团队设计了融合patch编码器、大语言模型(LLM)与patch解码器的创新架构。其中patch编码器将连续4个时间步的RVQ token聚合为单个patch,将序列下采样至6.25Hz表示后输入LLM;patch解码器则以自回归方式重建完整的25Hz RVQ token序列。训练策略上采用两阶段方案,以MiMo-7B-Base作为初始化模型,第一阶段专注语音理解任务,第二阶段将理解与生成能力统一于同一框架进行联合训练。数据层面,依托自研端到端数据管线(涵盖预处理、标注与筛选全流程),成功将预训练语料规模扩展至超亿小时音频数据。
为全面评估模型的上下文学习能力,小米构建了涵盖模态不变常识知识、听觉理解与推理能力、多样化语音到语音生成任务的综合评测基准。经过大规模预训练的MiMo-Audio-7B-Base展现出卓越的少样本学习能力:在基于MMLU改造的SpeechMMLU语音智能基准测试中,模型在语音输入输出条件下取得接近文本版MMLU的优异成绩,文本任务性能仅出现微小下降,充分验证了其"语音智能"与跨模态对齐能力。更值得关注的是模型对未见任务的泛化表现——仅通过上下文提供少量示例,即可完成语音转换、风格迁移、语速控制、降噪及语音翻译等未在训练数据中出现的任务。此外,模型展现出强大的语音延续生成能力,可创作语义连贯、高度逼真的独白与多说话人对话内容,覆盖脱口秀、演讲、辩论、播客及游戏解说等多元场景。
后训练阶段的核心目标是将预训练获得的泛化能力与指令跟随能力进行精准对齐。为此,小米构建了覆盖音频理解与生成任务的高度多样化指令微调语料库,整合多领域高质量开源数据与自建专业数据集。为增强模型的跨模态推理能力,团队创新性地为音频理解与生成任务构建高质量"思维链"数据集。同时,为获取类人化、风格可控的语音对话数据,训练了基于700万小时语音数据的MiMo-TTS-7B模型,实现文本对话到语音形式的自然转换。经过系统优化,MiMo-Audio-7B-Instruct最终在多项权威评测中达到开源SOTA水平。
小米此次开源Xiaomi-MiMo-Audio模型带来三大行业突破性贡献:首先,首次通过实证证明将基于无损压缩的语音预训练规模扩展至亿小时级别,能够激发出任务泛化的涌现能力,具体表现为强大的少样本学习能力,标志着语音领域迎来堪比GPT-3时刻的历史性突破;其次,提供首个全面可复现的生成式语音预训练方案,包含全新音频分词器、可扩展模型架构、分阶段训练策略与系统化评测体系;最后,在语音理解与生成建模中首创性引入"思维机制",构建从感知到复杂认知任务的推理桥梁,为语音模型的能力跃升开辟全新路径。
在实际应用中,MiMo-Audio-Base展现出令人惊叹的语音续写能力,在游戏直播、教学授课、诗歌朗诵、歌曲演绎、脱口秀表演、辩论竞赛等多元场景下均能实现自然流畅的语音延续,且无需任何参数调整。具体表现包括:歌唱续写时保持旋律连贯与音色悦耳;脱口秀场景中能根据内容节奏自动生成观众掌声与笑声;双人辩论时可生成立场一致、语义流畅、韵律平衡的对话内容;方言续写任务中精准保持口音特征;游戏直播/教学场景下生成具备情绪张力与口语化表达的语音,适时插入语气词或自然停顿;朗诵场景中则展现专业级的语气控制与情感表达。
作为开源模型,开发者可通过访问仓库地址获取完整代码与模型权重,探索语音智能的无限可能。Xiaomi-MiMo-Audio的出现,不仅重新定义了语音模型的能力边界,更为行业提供了从"专用"到"通用"的技术转型范本。未来,随着模型规模的持续扩大与训练策略的迭代优化,语音智能有望在教育、医疗、娱乐等领域实现更深度的场景渗透,真正让机器听懂情绪、理解语境、自然交互,最终迈向语音交互的AGI时代。
【免费下载链接】MiMo-Audio-7B-Base 项目地址: https://ai.gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Base
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



