读论文《Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming》
目前比较火的一篇论文,分享给大家
项目地址:https://github.com/gpt-omni/mini-omni
1. 引言
近年来,大型语言模型发展迅速,变得越来越强大。例如,Llama 3.1、Mixtral、Qwen-2和GPT-4等模型。这些模型开始掌握理解其他模态的能力,例如LLaVA、Qwen2-Audio和Video-llama等。尽管这些模型在特定任务上表现出色,但它们在实时语音交互能力上仍存在显著差距。GPT-4o是首个具有实时多模态语音交互能力的模型,但它是闭源的。其他模型通常采用两种方法来整合语音能力:级联方法(先文本生成再通过TTS模型合成音频)和端到端方法(如SpeechGPT)。然而,这些方法在实时反馈上仍有延迟。
为了解决这些问题,本文提出了Mini-Omni,这是一个端到端的、基于音频的对话模型,能够实现实时语音交互。通过提出文本指令的语音生成方法和批量并行策略,进一步提升了性能。此外,还引入了VoiceAssistant-400K数据集来微调模型,优化语音输出。
这种训练方法称为 “Any Model Can Talk”。感觉好厉害……
2. 相关工作
2.1 多模态理解
研究人员越来越关注于推进跨模态理解的统一模型。这些方法通常使用预训练的神经网络作为相关模态的编码器,并使用轻量级适配器将编码器的输出与语言模型的文本输入对齐。例如,LLaVA、Flamingo和BLIP用于视觉理解,而在音频领域,Whisper和Beats被用作编码器。
2.2 音频语言建模
最近,越来越多的研究使用音频标记化来弥合音频和文本之间的差距。音频标记化将连续的音频信号转换为离散的音频标记,使大型语言模型能够进行推理甚至跨模态交互。
2.3 实时人机交互模型
自从GPT-4o引入以来,实时对话模型取得了前所未有的成果,为用户输入提供近乎即时的语音反馈,标志着多模态大型模型的下一代重要里程碑。然而,这些模型的技术实现仍然是专有的。

最低0.47元/天 解锁文章
1474

被折叠的 条评论
为什么被折叠?



