MiMo-Audio：引领音频大模型迈入少样本学习新纪元-优快云博客

MiMo-Audio：引领音频大模型迈入少样本学习新纪元

【免费下载链接】MiMo-Audio-7B-Base 项目地址: https://ai.gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Base

引言

当前主流的音频语言模型往往需要针对特定任务进行专项微调才能完成既定的音频处理工作。然而，人类却具备仅通过少量示例或简单指令就能快速适应新音频任务的能力。GPT-3的成功已经证明，在文本领域，扩大下一个token预测的预训练规模能够赋予模型强大的泛化能力，我们坚信这一范式在音频领域同样适用。通过将MiMo-Audio的预训练数据规模扩展到超过一亿小时，我们欣喜地发现，该模型在各类音频任务中展现出了令人瞩目的少样本学习能力。我们对这些能力进行了系统性评估，结果显示，MiMo-Audio-7B-Base在开源模型中，无论是语音智能还是音频理解基准测试，均取得了最先进的性能。除了标准指标外，MiMo-Audio-7B-Base还能泛化到训练数据中未包含的任务，例如语音转换、风格迁移和语音编辑等。同时，它还具备强大的语音续写能力，能够生成高度逼真的脱口秀、朗诵、直播和辩论等内容。在后期训练阶段，我们精心构建了多样化的指令微调语料库，并将思维机制引入音频理解和生成过程。得益于此，MiMo-Audio-7B-Instruct在音频理解基准测试、口语对话基准测试和指令TTS评估中均达到了开源模型的最先进水平，甚至在部分方面接近或超越了闭源模型。

如上图所示，这是小米MiMo的品牌标识。该标识代表着小米在人工智能领域，特别是音频大模型方向的探索与成果，为读者直观呈现了研发该先进音频模型的主体。

架构设计

MiMo-Audio-Tokenizer

MiMo-Audio-Tokenizer是一个拥有12亿参数的Transformer模型，运行频率为25Hz。它采用八层RVQ堆栈，每秒可生成200个token。通过联合优化语义和重构目标，我们在1000万小时的语料库上从头开始训练MiMo-Audio-Tokenizer，不仅实现了卓越的重构质量，还为下游的语言建模提供了有力支持。

如上图所示，图片清晰展示了MiMo-Audio-Tokenizer的内部架构。这一架构是整个MiMo-Audio模型的基础，其设计直接影响着模型对音频数据的处理效率和质量，帮助读者深入理解该模型在音频 token 化方面的核心技术。

MiMo-Audio将补丁编码器、LLM和补丁解码器相结合，以提高对高速率序列的建模效率，并弥合语音和文本之间的长度不匹配问题。补丁编码器将四个连续时间步的RVQ token聚合为一个补丁，将序列下采样为6.25Hz的表示形式，供LLM使用。补丁解码器则通过延迟生成方案自回归地生成完整的25Hz RVQ token序列。

如上图所示，此图呈现了MiMo-Audio的整体架构。该架构清晰地展示了补丁编码器、LLM和补丁解码器如何协同工作，是理解MiMo-Audio模型高效处理音频数据的关键，让读者能从宏观层面把握模型的运作机制。

即刻探索MiMo-Audio！

您可以通过以下方式体验和了解MiMo-Audio：

尝试Hugging Face演示：MiMo-Audio Demo
阅读官方博客：MiMo-Audio Blog
深入研读技术报告：MiMo-Audio Technical Report

如上图所示，这是MiMo-Audio的Gradio演示界面。该界面直观地展示了用户与模型进行交互的方式，用户可以通过此界面亲身体验MiMo-Audio的各项功能，是帮助读者快速上手使用模型的重要途径。

模型下载

模型	🤗 Hugging Face地址
MiMo-Audio-Tokenizer	XiaomiMiMo/MiMo-Audio-Tokenizer
MiMo-Audio-7B-Base	XiaomiMiMo/MiMo-Audio-7B-Base
MiMo-Audio-7B-Instruct	XiaomiMiMo/MiMo-Audio-7B-Instruct

快速开始

借助内置的Gradio应用，您可以在几分钟内启动MiMo-Audio演示。

前提条件（Linux系统）

Python 3.12
CUDA >= 12.0

安装步骤

git clone https://gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Base
cd MiMo-Audio
pip install -r requirements.txt
pip install flash-attn==2.7.4.post1

运行演示

python run_mimo_audio.py

运行上述命令后，将启动一个本地Gradio界面，您可以在其中交互式地尝试MiMo-Audio的各项功能。

推理脚本

基础模型

我们提供了一个示例脚本，用于探索MiMo-Audio-7B-Base的上下文学习能力。详情请参见：inference_example_pretrain.py

指令模型

要尝试经过指令微调的模型MiMo-Audio-7B-Instruct，请使用相应的推理脚本。详情请参见：inference_example_sft.py

评估工具包

完整的评估套件可在MiMo-Audio-Eval获取。

该工具包旨在评估MiMo-Audio和论文中提及的其他近期音频大模型。它提供了一个灵活且可扩展的框架，支持多种数据集、任务和模型的评估。

如上图所示，图片展示了MiMo-Audio的性能结果。这些结果直观地证明了MiMo-Audio在各项任务中的卓越表现，是该模型技术实力的有力佐证，让读者对模型的实际性能有清晰的认识。

引用

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={GitHub - XiaomiMiMo/MiMo-Audio}, 
}

联系方式

如有任何问题，请联系我们：mimo@xiaomi.com，或提交issue。

MiMo-Audio的出现，标志着音频大模型在少样本学习领域迈出了重要一步。其强大的泛化能力和优异的性能，为音频处理领域带来了新的可能。未来，随着技术的不断迭代和优化，我们有理由相信，MiMo-Audio将在更多场景中发挥重要作用，推动音频智能应用的进一步发展，为用户带来更优质、更便捷的音频体验。无论是在语音交互、内容创作还是音频编辑等领域，MiMo-Audio都有望成为行业的新标杆，引领音频大模型技术不断向前迈进。

【免费下载链接】MiMo-Audio-7B-Base 项目地址: https://ai.gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Base

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考