本文是LLM系列文章,针对《IT’S NEVER TOO LATE: FUSING ACOUSTIC INFORMATION INTO LARGE LANGUAGE MODELS FOR AUTOMATIC SPEECH RECOGNITION》的翻译。
摘要
最近的研究已经成功地表明,在自动语音识别(ASR)输出的基础上,大型语言模型(LLM)可以成功地用于生成误差校正(GER)。具体地,LLM用于执行从ASR系统生成的N个最佳假设列表到预测的输出转录的直接映射。然而,尽管GER有效,但它引入了额外的数据不确定性,因为LLM是在不考虑语音信号中可用的声学信息的情况下训练的。在这项工作中,我们的目标是通过一种称为不确定性感知动态融合(UADF)的新型后期融合解决方案,在生成预测转录之前注入声学信息,从而克服这一限制。UADF是一种实现为自回归解码过程的多模态融合方法,分两个阶段工作:(i)它首先分析和校准token级LLM决策,以及(ii)然后动态同化来自声学模态的信息。从各种ASR任务中收集的实验证据表明,UADF在几个方面超越了现有的融合机制。它显著提高了误字率(WER),同时减轻了LLM中的数据不确定性问题,并解决了融合过程中单一模态所依赖的较差泛化