本文是LLM系列文章,针对《LARGE LANGUAGE MODELS ARE EFFICIENT LEARNERS OF NOISE-ROBUST SPEECH RECOGNITION》的翻译。
摘要
大型语言模型(LLM)的最新进展促进了自动语音识别(ASR)的生成纠错(GER),它利用LLM丰富的语言知识和强大的推理能力来提高识别结果。最新工作提出了一个具有“HyPoradise”数据集的GER基准,以通过有效的LLM微调来学习从ASR N最佳假设到基本事实转录的映射,该方法显示出很大的有效性,但缺乏对噪声鲁棒ASR的特异性。在这项工作中,我们将基准扩展到噪声条件,并研究我们是否可以教LLM像鲁棒ASR那样对GER执行去噪,其中一种解决方案是将噪声信息作为调节器引入LLM。然而,由于跨模态间隙,直接结合来自音频编码器的噪声嵌入可能会损害LLM调整。为此,我们提出从N最佳列表中提取一个语言空间噪声嵌入来表示源语音的噪声条件,这可以促进GER中的去噪过程。此外,为了增强其对音频噪声的表示能力,我们设计了一种通过互信息估计的知识蒸馏(KD)方法,将音频嵌入中的真实噪声信息提取到我们的语言嵌入中。在各种最新LLM上的实验表明,在有限的训练数据下,我们的方法实现了新的突破,在单词错误率方面提高了53.9%的校正率。分析表明,我们的语言空间噪声嵌入能够很好地表示源语音的噪声条件,在这种噪声条件下,现成的LLM表现出很强的语言空间去噪能力https://github.com/YUCHEN005/RobustGER。
大型语言模型在噪声鲁棒语音识别中的高效学习
本文扩展了大型语言模型(LLM)在自动语音识别(ASR)生成纠错(GER)的基准,研究了如何教LLM在噪声条件下进行去噪。提出了一种从N最佳列表中提取语言空间噪声嵌入的方法,结合知识蒸馏技术,增强了LLM对音频噪声的表示能力。实验显示,在有限的训练数据下,这种方法在单词错误率上提高了53.9%的校正率,证实了LLM在语言空间中进行噪声去噪的能力。
已下架不支持订阅
439

被折叠的 条评论
为什么被折叠?



