NVIDIA 在 WeNet 中开源 Noisy Student Training 方案

最新推荐文章于 2025-05-26 18:31:04 发布

原创

最新推荐文章于 2025-05-26 18:31:04 发布 · 742 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #python

英伟达提出LMFilter，一种无监督数据筛选方法，用于改善NoisyStudentTraining在非目标领域ASR任务中的性能。LMFilter利用模型之间的差异筛选数据，无需额外模型或标签。在AISHELL-1和AISHELL-2上，LMFilter显示了显著的性能提升，且代码已在WeNet开源。

为了改进 Noisy Student Training 在非目标领域 ASR 上的性能，英伟达提出新型数据筛选方法 LM Filter。其利用不同解码方式的识别文本之间的差异来作为数据筛选条件，是一个完全无监督的筛选过程。在 AIShell-1 上与无数据筛选的基线相比可以有 10.4% 的性能提升；在 AIShell-2 上可以取得 4.72% 字错误率。

目前该工作已投稿 ICASSP 2023，论文预览版可见：https://arxiv.org/pdf/2211.04717.pdf

代码已开源在 WeNet 社区，详见：

https://github.com/wenet-e2e/wenet/tree/main/examples/aishell/NST

Noisy Student Training 简介

半监督学习一直在语音识别领域受到广泛关注。这两年，Noisy Student Training (NST) 刷新并保持了 Librispeech 上 SOTA 结果[1]，并且在数据量相对充沛的情况下，增加无监督数据仍然可以提升性能，因此有大批学术界和工业界的从业者在关注和改进该方法。

NST 可以看作是 Teacher Student Learning 的改进版本，它是一个自我迭代的过程。首先，我们使用有监督数据训练好一个 teacher 模型，使用这个模型在无监督数据上做 inference 得到伪标签。接着将带伪标签的无监督数据和有监督数据混合到一起，来训练 student 模型，在训练的时候通常会加入一些噪声来使得模型更加鲁棒，例如语音上常用的 SpecAug。我们让 student 成为新的 teacher，以此类推。这个过程如下图所示。