LARGE LANGUAGE MODELS ARE EFFICIENT LEARNERS OF NOISE-ROBUST SPEECH RECOGNITION

大型语言模型在噪声鲁棒语音识别中的高效学习

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量478

点赞数 9

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136348521

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文扩展了大型语言模型（LLM）在自动语音识别（ASR）生成纠错（GER）的基准，研究了如何教LLM在噪声条件下进行去噪。提出了一种从N最佳列表中提取语言空间噪声嵌入的方法，结合知识蒸馏技术，增强了LLM对音频噪声的表示能力。实验显示，在有限的训练数据下，这种方法在单词错误率上提高了53.9%的校正率，证实了LLM在语言空间中进行噪声去噪的能力。

本文是LLM系列文章，针对《LARGE LANGUAGE MODELS ARE EFFICIENT LEARNERS OF NOISE-ROBUST SPEECH RECOGNITION》的翻译。

摘要

大型语言模型（LLM）的最新进展促进了自动语音识别（ASR）的生成纠错（GER），它利用LLM丰富的语言知识和强大的推理能力来提高识别结果。最新工作提出了一个具有“HyPoradise”数据集的GER基准，以通过有效的LLM微调来学习从ASR N最佳假设到基本事实转录的映射，该方法显示出很大的有效性，但缺乏对噪声鲁棒ASR的特异性。在这项工作中，我们将基准扩展到噪声条件，并研究我们是否可以教LLM像鲁棒ASR那样对GER执行去噪，其中一种解决方案是将噪声信息作为调节器引入LLM。然而，由于跨模态间隙，直接结合来自音频编码器的噪声嵌入可能会损害LLM调整。为此，我们提出从N最佳列表中提取一个语言空间噪声嵌入来表示源语音的噪声条件，这可以促进GER中的去噪过程。此外，为了增强其对音频噪声的表示能力，我们设计了一种通过互信息估计的知识蒸馏（KD）方法，将音频嵌入中的真实噪声信息提取到我们的语言嵌入中。在各种最新LLM上的实验表明，在有限的训练数据下，我们的方法实现了新的突破，在单词错误率方面提高了53.9%的校正率。分析表明，我们的语言空间噪声嵌入能够很好地表示源语音的噪声条件，在这种噪声条件下，现成的LLM表现出很强的语言空间去噪能力https://github.com/YUCHEN005/RobustGER。