Mini-Omni：语言模型可以在流中听、说和思考

最新推荐文章于 2025-10-28 14:09:54 发布

原创

最新推荐文章于 2025-10-28 14:09:54 发布 · 1.7k 阅读

·

10

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语言模型 #深度学习 #人工智能 #自然语言处理 #nlp

读论文《Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming》

目前比较火的一篇论文，分享给大家

论文地址：2408.16725v2 (arxiv.org)

项目地址：https://github.com/gpt-omni/mini-omni

1. 引言

近年来，大型语言模型发展迅速，变得越来越强大。例如，Llama 3.1、Mixtral、Qwen-2和GPT-4等模型。这些模型开始掌握理解其他模态的能力，例如LLaVA、Qwen2-Audio和Video-llama等。尽管这些模型在特定任务上表现出色，但它们在实时语音交互能力上仍存在显著差距。GPT-4o是首个具有实时多模态语音交互能力的模型，但它是闭源的。其他模型通常采用两种方法来整合语音能力：级联方法（先文本生成再通过TTS模型合成音频）和端到端方法（如SpeechGPT）。然而，这些方法在实时反馈上仍有延迟。

为了解决这些问题，本文提出了Mini-Omni，这是一个端到端的、基于音频的对话模型，能够实现实时语音交互。通过提出文本指令的语音生成方法和批量并行策略，进一步提升了性能。此外，还引入了VoiceAssistant-400K数据集来微调模型，优化语音输出。

这种训练方法称为 “Any Model Can Talk”。感觉好厉害……

2. 相关工作

2.1 多模态理解

研究人员越来越关注于推进跨模态理解的统一模型。这些方法通常使用预训练的神经网络作为相关模态的编码器，并使用轻量级适配器将编码器的输出与语言模型的文本输入对齐。例如，LLaVA、Flamingo和BLIP用于视觉理解，而在音频领域，Whisper和Beats被用作编码器。

2.2 音频语言建模

最近，越来越多的研究使用音频标记化来弥合音频和文本之间的差距。音频标记化将连续的音频信号转换为离散的音频标记，使大型语言模型能够进行推理甚至跨模态交互。

2.3 实时人机交互模型

自从GPT-4o引入以来，实时对话模型取得了前所未有的成果，为用户输入提供近乎即时的语音反馈，标志着多模态大型模型的下一代重要里程碑。然而，这些模型的技术实现仍然是专有的。

3.

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

请站在我身后 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。