SEMI-SUPERVISED ASR BY END-TO-END SELF-TRAINING 端到端半监督训练

最新推荐文章于 2024-01-13 01:54:21 发布

原创最新推荐文章于 2024-01-13 01:54:21 发布 · 543 阅读

2 ·

CC 4.0 BY-SA版权

asr 端到端专栏收录该内容

9 篇文章

订阅专栏

本文提出了一种端到端的半监督自动语音识别（ASR）自训练方法，通过CTC基础模型生成伪标签，利用无监督数据增强训练。实验证明，该方法能有效提升模型准确性，相对WER下降14.4%，减少基础系统与最优系统性能差距50%。

作者分别来自俄亥俄州立大学，Salesforce，亚马逊 alexa，还是值得一读

ABSTRACT

尽管基于深度学习的端到端自动语音识别（ASR）系统大大简化了建模流程，但它们却遭受数据稀疏性的困扰。文章提出了一种用于半监督ASR的端到端系统的自训练方法。以监督数据上训练的CTC为基础模型，无监督mini-batch数据在该模型生成伪标签，并使用伪标签来扩充监督数据以立即更新模型。该方法保留了端到端ASR系统的简单性，并且可以看作是在明确定义的学习目标上执行交替优化。文章做了些实证研究，涉及数据增强的影响，伪标记生成的解码波束大小以及伪标记的新鲜度。在带有WSJ语料库的常用半监督ASR上，该方法相对ctc base系统，相对WER下降了14.4％，使基本系统与oracle系统之间的性能差距降低了50％

INTRODUCTION

现代ASR系统面临的一个挑战是，随着模型容量的不断扩大，需要大量的标记数据来对其进行全面的训练。不幸的是，收集和记录庞大的数据集既昂贵又费时。因此，半监督ASR已成为重要的研究方向，其目标是利用大量未标记的数据和少量的标记数据进行训练。在这种情况下，最简单的方法之一是自我训练，它使用解码结果或对非监督数据（通常在单词级别）上的伪标签来增强监督训练。它已被证明对传统的ASR管道非常有效[1,2,3,4]。
我们交替执行以下两个过程：1、在无监督mini-batch 句子上使用令牌级解码器生成伪标签，2、增强刚刚解码的（输入，伪标签）对以进行有监督训练。实验表明，该方法可以通过对声学模型和非监督数据的未观察标签进行统一目标的交替优化而得出。这两个过程可以有效地相互增强，从而使得模型的准确性不断提高。
不同于其他工作的点是;
The pseudo-labels we use are discrete, token-level label sequences, rather than per-frame soft probabilities
The pseudo-labels are generated on the fly, rather than in one shot, since fresh labels are of higher quality than those produced from a stale model.
We perform data augmentation not only on supervised data, but also on unsupervised data.

SUPERVISED LEARNING FOR ASR

2.1 End-to-end ASR with CTC

输入序列X = (x1, …, xT ) ，相应的标签序列Y=(y1,…,yL)，条件概率：
在这里插入图片描述
B−1(Y ) 是包含重复和的 Y的各种可能路径，P(pj |X) 为第j帧的后验概率。基本假设是，以整个输入序列X为条件，路径p的概率在帧上解耦。CTC loss 定义为

CTC训练将标记句子的平均损失降至最低。众所周知，经过训练后，声学模型的每帧后验趋于达到峰值，并且在大多数帧中，最有可能的标记是，具有高置信度，表示“无发射”。
由于上述独立性假设，CTC并未明确建模标签之间的转移概率，因此解码（maxY P（Y | X）问题）相对简单。 CTC最简单的解码器是贪婪的解码器，它在每个帧中选择最有可能的token，然后通过除去重复和使其折叠起来。我们将主要使用此解码器，因为它效率极高。可以通过在每个帧上保留W个假设的列表来改进贪婪解码器，从而得到波束大小为W的波束搜索解码器。当建模单位是子词但需要单词级假设时，可以合并词典和语言模型，从而可以在WFST框架中有效实现[6]。我们不使用字级解码器来生成伪标签，因为它比令牌级波束搜索慢得多，而仅将其用于评估字错误率（WER）。应该注意的是，我们的自我训练方法也可以利用基于注意力的系统[7，8]。我们使用CTC主要是因为它的简单性和解码效率，可以实时生成伪标签。

2.2 Data augmentation

为了缓解数据稀疏性问题，不需要不受监督的数据的自然方法是使用distorted 来扩充训练数据。这种获得监督训练信号的简单方法有助于我们改善基本系统，从而在无监督数据上生成质量更高的伪标签。
论文中使用了速度扰动和频谱掩码两种技术，两种技术都可以看作是在频谱特征上进行扰动，输入的录音可以看做是D×T频谱图，D为频谱单元，T为帧数。速度扰动沿时间轴执行线性插值，就像在图像调整大小操作中一样；这里使用两个速度因子0.9和1.1。

3. leveraging unsupervised data with self-training

在基本系统上接受监督数据训练之后，可以将其用于预测原始非转录数据上的标签。如果我们采取自信的预测并假设它们是正确的，则可以将输入和预测（伪标签）添加到训练中。如果伪标签中的噪声足够低，则声学模型可以从附加训练数据中受益，从而获得更高的准确性。我们建议重复伪标签的生成和增强的训练步骤，以使两者相互增强，并不断提高两者。在我们的方法中，对于每次更新，我们使用带有波束搜索的当前声学模型为无监督话语的小批量生成伪标签，并根据其最可能的假设为这些话语计算CTC损失。非监督话语的损失会折现> 0以适应标签噪声，并与监督数据的CTC损失相结合以得出下一个模型更新。我们的自训练方法的示意图在图2中提供。
同样，我们可以将我们的方法表述为最小化以下目标：
在这里插入图片描述
对于半监督学习，我们的方法受非监督数据增强（UDA，[13]）的启发，与之类似，因为这两种方法在非监督数据上都使用伪标签和数据增强。但是两者之间有一个关键的区别：UDA使用软目标（先前的模型输出）来计算无监督损失，这鼓励模型与上一步的模型相差不大，并且实际上，如果没有数据扩充，无监督数据的损失将为零，对学习没有影响；相比之下，我们在每个无监督的话语上使用离散的标签序列（波束搜索解码器在软目标上的输出），从而提供更强的监督信号。尽管[13]尚未处理序列数据，但我们通过使用每帧的后验概率作为软目标并最小化了软目标与每帧模型输出之间的交叉熵损失，实现了其序列版本。否则，UDA的实现与我们的方法类似。如稍后所述，我们的方法在很大程度上优于UDA
考虑到CTC模型的每帧峰值后验分布，我们认为我们的方法具有以下优势：伪标签自然是高置信度预测，从而使我们不必为离散化软概率设置阈值。尽管非<空白>令牌的对齐方式或位置在CTC系统中可能是不精确的，但这不是问题，因为我们仅在计算无监督的CTC损失时使用标签序列，而不使用其对齐方式，这会边缘化所有可能的对齐方式。在这方面，端到端系统为自训练提供了比依赖对齐的传统混合系统更为优雅的表述。

5. EXPERIMENTS

在下面，我们在WSJ语料库上演示上述技术。我们将si84分区（7040语音）用作监督数据，将si284分区（37.3K语音）用作非监督数据。 dev93分区（503语音）用作所有超参数调整的开发集，而eval92分区（333语音）用作测试集。该设置通常用于演示半监督ASR [19，20，22]。对于输入功能，我们从录音中提取窗口大小为25ms，跳数为10ms的40维LFBE，并执行每个扬声器的均值归一化。此外，我们每3个连续的输入帧进行堆叠以减少输入序列的长度（数据增强后），从而加快了训练和解码的速度。

为了报告评估集上的单词错误率（WER），我们采用基于WFST的框架[6]，其中包含由配方提供的20K词汇量的词典和Trigram语言模型，并使用Kaldi的解码速度更快的方法进行波束搜索。 beamsize 20.同一手机的不同位置版本在进行单词解码之前会合并，并且我们使用从si84计算得出的手机计数将后验概率（声学模型输出）转换为似然
在整个实验过程中，我们的声学模型由每个方向上512个单位的4个双向LSTM层[27]组成。对于模型训练，我们使用ADAM [28]并通过网格搜索调整其初始学习率。我们应用丢弃率[29]，将速率调整为f0.0、0.1、0.2、0.5g，可以持续提高准确性。我们使用在每个训练时期结束时评估的开发集PER作为超参数搜索和模型选择的标准。

5.1. Base system with data augmentation

如前所述，我们将使用仅根据监督数据进行训练的基本系统来开始半监督训练。对于此系统，我们将小批量大小设置为4，每个模型最多训练40个纪元。我们按照第2节中的描述应用数据增强。 2.2，由于速度扰动，有效地产生了3倍大的受监视集合。在表1中，我们给出了基本系统的PER和未经扩充的另一种经过培训的PER。可以发现，与仅对干净数据进行训练相比，数据增强可提供可观的收益（开发PER的收益为18.52％，而开发PER的收益为16.83％），从而导致更高的伪标签质量。从现在开始，我们将始终对受监管的数据使用数据增强。
在这里插入图片描述

5.2. Continue with self-training

从基本系统开始，我们现在继续以半监督目标（1）进行训练。每次模型更新都使用8个有监督的话语和32个无监督的话语来计算（si284约为si84大小的4倍）。通过网格搜索，我们将辍学率设置为0：2，并将初始学习率设置为0：0001，这比训练初始基本模型时的学习率小5倍，这具有阻止模型偏离太多的作用。基本模型。每个模型最多训练30个纪元。我们首先设置与贪婪解码器相对应的波束大小W = 1，以动态生成伪标签。我们训练了两组模型，一组具有无监督话语的数据增强功能，另一组没有。但在两种情况下，我们都增加了有监督的话语。图2给出了折衷参数不同值的dev PERs，其中= 0对应于基本系统。我们的方法在广泛的范围内表现良好。两种设置中的最佳值均为1：0左右，并且> 1时性能不会降低太多，这表明伪标签内的噪声在很大程度上可以容忍。此外，扩充无监督数据会大大提高最终准确性。
为了显示伪标签的生成和使用伪标签的监督训练之间的相互补充，我们在图3中提供了= 1：0的模型的dev PER与时期的学习曲线。开发人员设置的准确性随着时间的推移稳步提高，在基本模型的前几个时期中，PER显着降低。

5.3. Effect of beam size W

现在，我们探索更大的W的效果，直觉上将产生更高的伪标签质量。在本实验中，我们将其他超参数固定为W = 1的值。在表2中，我们给出了dev PER以及在f1中对W的训练时间； 5; 10; 15克 W = 15的学习曲线绘制在图3中。事实证明，W较大时，我们可以以更长的训练时间为代价（主要来自波束搜索）来稍微改善最终的PER。因此，我们建议使用具有良好基本模型的小W。
在这里插入图片描述

4. Comparison with UDA

现在，通过与UDA进行比较，我们显示出硬标签比软目标更有用，后者用前一模型的后验计算的交叉熵代替了无监督数据的CTC损失。我们还对非监督数据使用数据增强，并且后代的插值方式与输入速度扰动相同。我们通过网格搜索来调整权衡参数，性能最佳的模型（= 0：1）给出的dev PER为14.56％，学习曲线如图3所示。

5.5. Comparison with one-shot pseudo-labels

为了进一步证明新鲜伪标签的重要性，我们将使用一种更广泛使用的方法进行比较，在该方法中，使用基本模型在整个非监督数据集上一次生成伪标签。我们使用较大的解码波束大小W = 20来执行此操作，然后从具有目标（1）的基本模型继续进行训练，而无需再次更新伪标签。该方法确实比基本系统的dev PER为13.68％明显提高，但不及我们的W = 1时的方法那么多。其学习曲线如图3所示，并且曲线平稳期比我们的方法更快。

5.6. Results summary

在表3中，我们在eval92上给出了不同方法的WER。还包括使用相同数据分区进行注意力集中的半监督学习的最新工作[30]。为了将结果紧密地结合在一起，我们仅包括了在si84上训练的[31]中的CTC模型。为了获得半监督ASR的性能上限，我们在完整的si284分区上训练了具有地面实况转录的模型，尽管管道有所不同，但测试WER为8.15％，接近[6]的7.87％。与经过精心训练的，具有数据增强功能的基本系统相比，我们的W = 1的方法相对于经过精心培训的基础系统，可将dev PER降低31.6％（16.83％！11.51％），相对14.4％的WER降低（11.43％！9.78％）。基本系统（11.43％）与oracle系统（8.15％）之间的性能差距降低了50％。
在这里插入图片描述