ADVANCING MULTI-TALKER ASR PERFORMANCE WITH LARGE LANGUAGE MODELS

本文是LLM系列文章,针对《ADVANCING MULTI-TALKER ASR PERFORMANCE WITH LARGE LANGUAGE MODELS》的翻译。

利用大型语言模型提高多说话者 ASR 性能

摘要

在对话场景中识别多个说话人的重叠语音是自动语音识别 (ASR) 中最具挑战性的问题之一。序列化输出训练 (SOT) 是解决多说话者 ASR 问题的经典方法,其思想是根据多个说话者的语音发射时间连接转录内容进行训练。然而,SOT 风格的转录源自对话中多个相关话语的串联,很大程度上依赖于对长上下文的建模。因此,与主要强调基于注意力的编码器解码器(AED)架构中编码器性能的传统方法相比,利用大语言模型(LLM)利用预训练解码器功能的新方法可能更适合这种复杂且具有挑战性的场景。在本文中,我们提出了一种基于 LLM 的 SOT 方法,用于多说话者 ASR,利用预训练的语音编码器和 LLM,使用适当的策略在多说话者数据集上对其进行微调。实验结果表明,我们的方法在模拟数据集 LibriMix 上超越了传统的基于 AED 的方法,并在真实数据集 AMI 的评估集上实现了最先进的性能,优于使用 1000 倍以上监督数据训练的 AED 模型在之前的工作中。

1 引言

2 方法

3 实验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值