Freeze-Omni：准确性超Moshi和GLM-4-Voice！端到端语音双工模型

最新推荐文章于 2025-01-02 00:15:00 发布

u013250861

最新推荐文章于 2025-01-02 00:15:00 发布

阅读量240

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Audio 文章标签：语音识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u013250861/article/details/144514235

Audio 专栏收录该内容

61 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

GPT-4o提供的全双工语音对话带来了一股研究热潮，目前诸多工作开始研究如何利用LLM来实现端到端的语音到语音(Speech-to-Speech)对话能力，但是目前大部分开源方案存在以下两个问题：

LLM灾难性遗忘：由于现有方案在语音模态与LLM进行对齐时，会或多或少对LLM进行微调，但由于要采集到与LLM本身训练的文本数据同等量级的语音数据是非常困难的，所以这一微调过程往往会导致LLM出现遗忘现象，造成LLM的聪明度下降
语音问答(Spoken Question Answering)任务的评估：多数工作对于语音问答的准确性并没有进行定量评估，从已有的一些评估结果也可以看出同一模型语音问答和文本问答相比准确性会有明显的差距

针对上述这些问题，近日腾讯&西工大&南大的研究人员提出了一种低延迟的端到端语音双工对话模型Freeze-Omni（VITA大模型系列第二个工作），其可以在完全冻结LLM的情况下，为LLM接入语音输入和输出，使其能够支持端到端的语音对话能力，且通过一系列优化使得其具备低延迟的双工对话能力，其主要特性如下：

在整个训练过程中，LLM的参数被完全冻结，确保大型语言模型的知识能力被完全保留
训练过程中所依赖的数据规模较小，消耗的计算资源也较少。Freeze-Omni仅需要文本-语音配对数据（如ASR和TTS训练数据，比较容易获得）以及仅少量的文本模态的问答数据，语音问答准确性显著超越Moshi与GLM-4-Voice等目前SOTA的模型
Freeze-Omni 可以支持任何具有文本模态的(多模

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。