ADVANCING MULTI-TALKER ASR PERFORMANCE WITH LARGE LANGUAGE MODELS

最新推荐文章于 2026-01-09 21:51:15 发布

原创最新推荐文章于 2026-01-09 21:51:15 发布 · 233 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

LLM Daily 专栏收录该内容

1838 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文是LLM系列文章，针对《ADVANCING MULTI-TALKER ASR PERFORMANCE WITH LARGE LANGUAGE MODELS》的翻译。

摘要

在对话场景中识别多个说话人的重叠语音是自动语音识别 (ASR) 中最具挑战性的问题之一。序列化输出训练 (SOT) 是解决多说话者 ASR 问题的经典方法，其思想是根据多个说话者的语音发射时间连接转录内容进行训练。然而，SOT 风格的转录源自对话中多个相关话语的串联，很大程度上依赖于对长上下文的建模。因此，与主要强调基于注意力的编码器解码器（AED）架构中编码器性能的传统方法相比，利用大语言模型（LLM）利用预训练解码器功能的新方法可能更适合这种复杂且具有挑战性的场景。在本文中，我们提出了一种基于 LLM 的 SOT 方法，用于多说话者 ASR，利用预训练的语音编码器和 LLM，使用适当的策略在多说话者数据集上对其进行微调。实验结果表明，我们的方法在模拟数据集 LibriMix 上超越了传统的基于 AED 的方法，并在真实数据集 AMI 的评估集上实现了最先进的性能，优于使用 1000 倍以上监督数据训练的 AED 模型在之前的工作中。

1 引言

2 方法

3 实验

4 结论

在本文中，我们开创了一种基于 LLM 的多说话者 ASR 方法。在评估中，所提出的方法在模拟数据 LibriMix 和真实数据 AMI 上均取得了最先进的结果，甚至优于在 AMI-SDM 评估集上使用 1000 倍以上监督数据训练的现有方法。实验结果表明，基于 LLM 的架构强调解码器性能，并在理解长上下文和跨话语建模方面拥有强大的能力，在基于 SOT 的多说话者 ASR 任务中，其性能优于