WeNet2.0：提高端到端ASR的生产力

最新推荐文章于 2025-11-15 18:00:42 发布

原创

最新推荐文章于 2025-11-15 18:00:42 发布 · 3.2k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #wenet

本文介绍了面向生产的端到端语音识别工具包 WeNet 2.0 的四个重要更新，包括 U2++ 框架、基于 n-gram 的语言模型、统一的上下文偏置框架和统一的 IO 系统。实验表明，WeNet 2.0 在各种语料库上比原来的 WeNet 实现了高达 10% 的相对识别性能提升。

摘要

最近，我们提供了 WeNet [1]，这是一个面向生产（=工业生产环境需求）的端到端语音识别工具包，在单个模型中，它引入了统一的两次two-pass (U2) 框架和内置运行时（built-in runtime）来处理流式和非流式解码模式。

为了进一步提高 ASR 性能并满足各种生产需求，在本文中，我们介绍了 WeNet 2.0 的四个重要更新。

我们提出了 U2++，这是一个具有双向注意力解码器的统一双通道框架（two-pass framework with bidirectional attention decoders），其中包括从右到左注意力解码器(注意，是right-to-left方向！)的未来上下文信息，以提高共享编码器的表示能力（representative ability）和重新评分阶段（rescoring stage）的性能。
我们在 WeNet 2.0 中引入了基于 n-gram 的语言模型和基于 WFST 的解码器，促进了富文本数据（rich text data）在生产场景中的使用。【这个好！可以说，上一代的代表kaldi的重要的功能，目前在WeNet2.0中进行很好的idea和方法论的继承和实现】
我们设计了一个统一的上下文偏置框架（unified contextual biasing framework），该框架利用用户特定的上下文（例如联系人列表-contact lists）为生产提供快速适应能力，并在“有 LM” 和“无 LM”两大场景中提高 ASR 准确性。
我们设计了一个统一的 IO 来支持大规模数据进行有效的模型训练。

综上所述，全新的 WeNet 2.0 在各种语料库上比原来的 WeNet 实现了高达 10% 的相对识别性能提升，并提供了几个面向生产的重要特性。

索引词：U2++，语言模型，上下文偏置（contextual biasing），UIO

论文地址：https://arxiv.org/pdf/2203.15455.pdf

github地址：https://github.com/wenet-e2e/wenet

1 简介

端到端 (end-to-end, E2E) 方法，例如连接主义时间分类 (connectionist temporal classification - CTC) [2, 3]、循环神经网络转换器 (RNN-T) [4, 5, 6, 7] 和基于注意力的编码器-解码器 ( attention-based encoder-decoder: AED) [8, 9, 10, 11, 12]，在过去几年中引起了对自动语音识别 (ASR) 的极大兴趣。

最近的工作 [13, 14, 15] 表明 E2E 系统不仅极大地简化了语音识别管道，而且在准确性上也超过了传统的混合 ASR 系统（hybrid ASR systems）。

考虑到 E2E 模型的优势 [16]，将新兴的 E2E ASR 框架部署到具有稳定和高效特性的实际生产中变得很有必要。然而，几乎所有著名的 E2E 语音识别工具包，例如 ESPnet [17] 和 SpeechBrain [18]，都是面向研究而非面向生产的。【鉴于ESPnet是几位日本人研究者开发的，所以，对于日文的支持，有一定的优势。一些日本的企业，也仍然在使用ESPnet来训练他们的ASR模型。】

在 [1] 中，我们提出了一个生产优先和生产就绪（production first and production ready = PFPR，这个词好！）的 E2E 语音识别工具包 WeNet1，它专注于解决实际生产中基于 Transformer [19] 或 Conformer [20] 的 E2E 模型的棘手问题。

具体来说，WeNet 采用联合 CTC/AED （例如，主要是指综合ctc loss和attention loss）结构作为基本模型结构。然后，提出了一个统一的两通（two-pass，U2）框架来解决流式传输问题，其中在训练过程中应用动态块掩码策略（dynamic chunk masking）将流式和非流式模式统一在一个统一的神经模型中，并提供“构建运行时”（built-in runtime），开发人员可以在其中运行 x86 和 android E2E 系统以进行开箱即用的语音识别。

WeNet 极大地减少了在实际应用中部署 E2E 模型的工作量，因此被研究人员和开发人员广泛采用，用于在实际生产中实现语音识别。

在本文中，我们介绍了 WeNet 2.0，它介绍了 WeNet 中最新的发展和更新的解决方案，用于面向生产的语音识别。 WeNet 2.0 的主要更新如下。