本文是LLM系列文章,针对《LARGE LANGUAGE MODELS ARE EFFICIENT LEARNERS OF NOISE-ROBUST SPEECH RECOGNITION》的翻译。
摘要
大型语言模型(LLM)的最新进展促进了自动语音识别(ASR)的生成纠错(GER),它利用LLM丰富的语言知识和强大的推理能力来提高识别结果。最新工作提出了一个具有“HyPoradise”数据集的GER基准,以通过有效的LLM微调来学习从ASR N最佳假设到基本事实转录的映射,该方法显示出很大的有效性,但缺乏对噪声鲁棒ASR的特异性。在这项工作中,我们将基准扩展到噪声条件,并研究我们是否可以教LLM像鲁棒ASR那样对GER执行去噪,其中一种解决方案是将噪声信息作为调节器引入LLM。然而,由于跨模态间隙,直接结合来自音频编码器的噪声嵌入可能会损害LLM调整。为此,我们提出从N最佳列表中提取一个语言空间噪声嵌入来表示源语音的噪声条件,这可以促进GER中的去噪过程。此外,为了增强其对音频噪声的表示能力,我们设计了一种通过互信息估计的知识蒸馏(KD)方法,将音频嵌入中的真实噪声信息提取到我们的语言嵌入中。在各种最新LLM上的实验表明,在有限的训练数据下,我们的方法实现了新的突破,在单词错误率方面提高了53.9%的校正率。