Mini-Omni:语言模型可以在流中听、说和思考

读论文《Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming》

目前比较火的一篇论文,分享给大家

论文地址:2408.16725v2 (arxiv.org)

项目地址:https://github.com/gpt-omni/mini-omni

1. 引言

近年来,大型语言模型发展迅速,变得越来越强大。例如,Llama 3.1、Mixtral、Qwen-2和GPT-4等模型。这些模型开始掌握理解其他模态的能力,例如LLaVA、Qwen2-Audio和Video-llama等。尽管这些模型在特定任务上表现出色,但它们在实时语音交互能力上仍存在显著差距。GPT-4o是首个具有实时多模态语音交互能力的模型,但它是闭源的。其他模型通常采用两种方法来整合语音能力:级联方法(先文本生成再通过TTS模型合成音频)和端到端方法(如SpeechGPT)。然而,这些方法在实时反馈上仍有延迟。

为了解决这些问题,本文提出了Mini-Omni,这是一个端到端的、基于音频的对话模型,能够实现实时语音交互。通过提出文本指令的语音生成方法和批量并行策略,进一步提升了性能。此外,还引入了VoiceAssistant-400K数据集来微调模型,优化语音输出。

这种训练方法称为 “Any Model Can Talk”。感觉好厉害……

2. 相关工作

2.1 多模态理解

研究人员越来越关注于推进跨模态理解的统一模型。这些方法通常使用预训练的神经网络作为相关模态的编码器,并使用轻量级适配器将编码器的输出与语言模型的文本输入对齐。例如,LLaVA、Flamingo和BLIP用于视觉理解,而在音频领域,Whisper和Beats被用作编码器。

2.2 音频语言建模

最近,越来越多的研究使用音频标记化来弥合音频和文本之间的差距。音频标记化将连续的音频信号转换为离散的音频标记,使大型语言模型能够进行推理甚至跨模态交互。

2.3 实时人机交互模型

自从GPT-4o引入以来,实时对话模型取得了前所未有的成果,为用户输入提供近乎即时的语音反馈,标志着多模态大型模型的下一代重要里程碑。然而,这些模型的技术实现仍然是专有的。

3.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

请站在我身后

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值