GPT-4o提供的全双工语音对话带来了一股研究热潮,目前诸多工作开始研究如何利用LLM来实现端到端的语音到语音(Speech-to-Speech)对话能力,但是目前大部分开源方案存在以下两个问题:
- LLM灾难性遗忘:由于现有方案在语音模态与LLM进行对齐时,会或多或少对LLM进行微调,但由于要采集到与LLM本身训练的文本数据同等量级的语音数据是非常困难的,所以这一微调过程往往会导致LLM出现遗忘现象,造成LLM的聪明度下降
- 语音问答(Spoken Question Answering)任务的评估:多数工作对于语音问答的准确性并没有进行定量评估,从已有的一些评估结果也可以看出同一模型语音问答和文本问答相比准确性会有明显的差距
针对上述这些问题,近日腾讯&西工大&南大的研究人员提出了一种低延迟的端到端语音双工对话模型Freeze-Omni(VITA大模型系列第二个工作),其可以在完全冻结LLM的情况下,为LLM接入语音输入和输出,使其能够支持端到端的语音对话能力,且通过一系列优化使得其具备低延迟的双工对话能力,其主要特性如下:
- 在整个训练过程中,LLM的参数被完全冻结,确保大型语言模型的知识能力被完全保留
- 训练过程中所依赖的数据规模较小,消耗的计算资源也较少。Freeze-Omni仅需要文本-语音配对数据(如ASR和TTS训练数据,比较容易获得)以及仅少量的文本模态的问答数据,语音问答准确性显著超越Moshi与GLM-4-Voice等目前SOTA的模型
- Freeze-Omni 可以支持任何具有文本模态的(多模