本文是LLM系列文章,针对《ADVANCING MULTI-TALKER ASR PERFORMANCE WITH LARGE LANGUAGE MODELS》的翻译。
摘要
在对话场景中识别多个说话人的重叠语音是自动语音识别 (ASR) 中最具挑战性的问题之一。序列化输出训练 (SOT) 是解决多说话者 ASR 问题的经典方法,其思想是根据多个说话者的语音发射时间连接转录内容进行训练。然而,SOT 风格的转录源自对话中多个相关话语的串联,很大程度上依赖于对长上下文的建模。因此,与主要强调基于注意力的编码器解码器(AED)架构中编码器性能的传统方法相比,利用大语言模型(LLM)利用预训练解码器功能的新方法可能更适合这种复杂且具有挑战性的场景。在本文中,我们提出了一种基于 LLM 的 SOT 方法,用于多说话者 ASR,利用预训练的语音编码器和 LLM,使用适当的策略在多说话者数据集上对其进行微调。实验结果表明,我们的方法在模拟数据集 LibriMix 上超越了传统的基于 AED 的方法,并在真实数据集 AMI 的评估集上实现了最先进的性能,优于使用 1000 倍以上监督数据训练的 AED 模型在之前的工作中。