LARGE LANGUAGE MODELS ARE EFFICIENT LEARNERS OF NOISE-ROBUST SPEECH RECOGNITION

828 篇文章

已下架不支持订阅

本文扩展了大型语言模型(LLM)在自动语音识别(ASR)生成纠错(GER)的基准,研究了如何教LLM在噪声条件下进行去噪。提出了一种从N最佳列表中提取语言空间噪声嵌入的方法,结合知识蒸馏技术,增强了LLM对音频噪声的表示能力。实验显示,在有限的训练数据下,这种方法在单词错误率上提高了53.9%的校正率,证实了LLM在语言空间中进行噪声去噪的能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《LARGE LANGUAGE MODELS ARE EFFICIENT LEARNERS OF NOISE-ROBUST SPEECH RECOGNITION》的翻译。

大型语言模型是噪声抑制语音识别的有效学习者

摘要

大型语言模型(LLM)的最新进展促进了自动语音识别(ASR)的生成纠错(GER),它利用LLM丰富的语言知识和强大的推理能力来提高识别结果。最新工作提出了一个具有“HyPoradise”数据集的GER基准,以通过有效的LLM微调来学习从ASR N最佳假设到基本事实转录的映射,该方法显示出很大的有效性,但缺乏对噪声鲁棒ASR的特异性。在这项工作中,我们将基准扩展到噪声条件,并研究我们是否可以教LLM像鲁棒ASR那样对GER执行去噪,其中一种解决方案是将噪声信息作为调节器引入LLM。然而,由于跨模态间隙,直接结合来自音频编码器的噪声嵌入可能会损害LLM调整。为此,我们提出从N最佳列表中提取一个语言空间噪声嵌入来表示源语音的噪声条件,这可以促进GER中的去噪过程。此外,为了增强其对音频噪声的表示能力,我们设计了一种通过互信息估计的知识蒸馏(KD)方法,将音频嵌入中的真实噪声信息提取到我们的语言嵌入中。在各种最新LLM上的实验表明,在有限的训练数据下,我们的方法实现了新的突破,在单词错误率方面提高了53.9%的校正率。

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值