An Efficient Joint Training Framework for Robust Small-Footprint Keyword Spotting(2020)

一种用于鲁棒性小足迹关键词识别的高效联合训练框架

摘要

对噪声的鲁棒性对于现实环境中的关键字识别（KWS）至关重要。为了提高鲁棒性，一种合理的方法是首先采用语音增强模型对噪声语音进行增强。然而，目前的增强模型需要大量的参数和计算，不能满足小占地面积的要求。

我们设计了一个轻量级增强模型，该模型由用于特征提取的卷积层、用于时间建模的递归层和用于特征恢复的反卷积层组成。

为了减少增强特征与KWS系统期望特征之间的不匹配，我们进一步提出了一种高效的联合训练框架，其中增强模型和KWS系统通过一个可训练的特征转换块进行连接和联合微调。

通过联合训练，语言信息可以从KWS系统反向传播到增强模型并指导其训练。

实验结果表明，所提出的小足迹增强模型在不增加模型或计算复杂度的情况下，显著提高了KWS系统的噪声鲁棒性。此外，通过提出的联合训练框架可以进一步提高识别性能。

研究内容

关键词识别（KWS）又称关键词检测（KWD）或口语术语检测（STD）是从连续的音频流中检测预定义的关键词，是人机交互界面的关键技术。

一个好的KWS系统应该具有低的错误拒绝率和低的错误报警率。此外，KWS通常以“始终开启”模式运行，这需要低功耗，尤其是在占地面积小的嵌入式系统中。

目前，KWS系统在相对安静的环境中运行良好。在嘈杂的环境中，KWS仍然是一个挑战。为了提高对噪声的鲁棒性，有两种可选方法。一种是多条件训练[6,7,9]，在这种训练中，KWS模型同时使用不同声学场景中的语音进行训练。然而，由于KWS系统需要用有限的参数对各种声学场景进行建模，因此多条件训练的性能仍然比预期的差。另一种合理的方法是将语音增强模型作为KWS系统的前端处理。得益于深度学习技术，语音增强取得了巨大的进步[13]，并提高了自动语音识别（ASR）系统的噪声鲁棒性[1,8]。在KWS的背景下，在【17】中开发了一种依赖于文本的增强模型，由于模型尺寸较大，该模型不适用于占用空间较小的设备。

在本文中，我们提出了一个参数和计算复杂度有限的小占地面积增强模型。具体而言，该模型由用于特征提取的卷积编码器、用于时间建模的递归层和用于特征重构的反卷积解码器组成。我们还通过在相应的编码器和解码器层之间添加跳过连接来采用深度残差学习。

由于语音增强和KWS可以相互受益，我们进一步提出了一种高效的联合训练框架，其中通过使用可训练的特征变换块将增强模型和KWS系统连接起来并进行联合微调。通过联合训练框架，语义信息可以从KWS系统反向传播到增强模型，并指导其训练过程。

此外，我们还将增强域从功率谱更改为Mel谱，从而减少了计算量，同时不会降低性能。

实验结果表明，无论KWS识别器是在干净语音上还是在增强语音上进行训练，该联合训练方法不仅显著优于多条件训练方法，而且优于增强前端方法。通过实验，我们发现，对于KWS任务，Mel谱图比功率谱图具有更好的特征，从而导致更好的性能和更低的计算复杂度。我们还发现，在Mel谱图中，KWS系统对关键词中的语音符号数量不太敏感。

提出的方法&模型架构

我们系统的总体框架如图1所示。该系统由三部分组成，即语音增强模型、特征转换块和关键字识别（KWS）模型。

1、通过训练语音增强模型来预测理想比率掩模(IRMs)。[10]。将噪声谱图与预测的掩模逐点相乘，得到增强谱图。

2、然后通过特征变换块将增强谱图变换为Mel倒谱系数（MFCCs）。

3、给定MFCCs，KWS模型被训练来预测关键词的后验概率。

Figure 1: 系统的示意图。实心箭头和虚线箭头分别表示向前传递和向后传递的方向。

语音增强模型

1、我们采用了基于掩蔽的语音增强方法，基于掩蔽的方法的损失函数定义为，IRM的M（掩模）定义为：

M（t，f）和Mˆ（t，f）分别是时间t和频率f处的理想和预测时频（T-F）掩模。T和F分别是帧和频率单元的总数。其中S表示干净语音的频谱图，N表示噪声信号的频谱图。

2、在测试阶段，根据噪声语音预测IRM（理想比率掩模），并通过以下方式获得增强频谱图：

其中，Mˆ是增强模型预测的掩模。Y是噪声信号的频谱图。⊗表示按元素的矩阵乘法。

为了满足小占地面积的要求，我们设计了一种具有限制参数和计算量的卷积递归网络（CRN）。CRN的体系结构在图1的下部显示为语音增强模型。在CRN中有两个组成部分，即卷积编码器-解码器和具有LSTM单元的RNN，然后是一个线性投影层。跳过连接被添加到编码器和解码器之间的相应层。在卷积层中使用批量归一化[13]和校正线性单元（ReLUs）[14]，在反卷积层中使用leaky ReLUs（lReLUs），而不是ReLUs。输出层采用Sigmoid非线性。

特征转换块（FTB）

KWS系统的输入为MFCC，增强模型的输出为频谱图。为了从频谱图中提取MFCC，我们设计了特征转换块（FTB），如图2所示。

将Mel谱图转换为MFCC需要先取对数，然后应用离散余弦变换（DCT）。为了进行比较，还建立了一个增强模型，用于预测功率谱图上的IRM。

对于该模型，我们需要将功率谱图转换为MFCC。与Mel谱图类似，为了从功率谱图中获得MFCC，输入应通过Mel滤波器组，然后取对数，最后应用DCT。

注意，Mel滤波器组滤波和DCT都可以通过矩阵乘法实现，矩阵乘法可以进一步表示为神经网络中的线性层[16]。因此，包括FTBs在内，所提出的系统可以使用反向传播算法进行训练。

Figure 2: （a）Mel谱图和（b）功率谱图的特征转换块。

关键字识别系统（KWS系统）

我们采用[17]中开发的cnn-trad-pool2模型作为我们的KWS系统。该模型与最初在[15]中引入的cnn-trad-fpool3模型略有不同。将第一个最大池层的大小和步长设置为（2，2），并在cnn-trad-pool2中去掉隐藏的线性层，从而提高精度。

文章贡献

在本文中，我们提出了一种小足迹的鲁棒KWS语音增强技术，它集成了前端增强模型和后端KWS模型。

与传统的基于BiLSTM的模型相比，所提出的CRN在匹配和非匹配噪声条件下都取得了更好的性能，并且CRN需要更少的参数和计算量。

我们发现，Mel谱图优于功率谱图，因为它可以在计算量较少、模型尺寸相似或更小的情况下获得类似的性能。此外，基于Mel谱图的方法对关键词中的语音符号（音标）长度不敏感。

数据集

我们在谷歌的语音命令数据集上评估了的模型，该数据集包含105829条1秒长的话语和6条背景噪声记录（包括粉红噪声、白噪声和日常环境声音，如洗碗、运动自行车等）[2]。谷歌实施后，按照谷歌的实现，该任务是检测10个关键字，未知和沉默。

在我们的实验中，基线cnn-trad-pool2遵循与TensorFlow参考完全相同的程序。数据集按8:1:1的比例分为训练集、验证集和测试集。噪声语音是通过与信噪比（SNR）为{−3、0、3、6}的6个噪声混合得到的。大约有812k个噪音示例用于训练，97.6k个用于验证和测试。另外25个关键词用于评估模型，这些模型在训练阶段不涉及。最后，测试集包含210k个带噪语音，其中关键词和非关键词的比率为1.3:1。为了评估模型的泛化性，采用了100个在训练阶段看不到的非言语声音。匹配的测试集包含近3.6M个话语。

所有语音采样频率为16 kHz，特征提取的窗口长度为30 ms，移位长度为10 ms。采用480点短时傅里叶变换。Mel滤波器组采用低频20 Hz和高频4 KHz进行计算。使用40维DCT系数提取MFCC。

实验设置

准确度是主要的衡量标准，这个标准是简单测量为正确的分类决策的那部分。我们还绘制了(receiver operating characteristic)接收者操作特征（ROC）曲线，其中x轴和y轴分别显示假报警率（FAR）和假拒绝率（FRR）。曲线下面积（AUC）较小的方法更好。等错误率（EER）也被用来显示KWS在增强模型中的性能。

所有模型都使用Adam优化器[18]进行训练，并在话语级别使用256的小批量。我们将学习率设置为0.0001。均方误差（MSE）和交叉熵（CE）分别是增强模型和KWS系统的目标函数。通过验证集上的最佳精度选择最佳模型。

结果

我们在功率谱图和Mel谱图上评估了建议的小尺寸CRN。

对于每个谱图，我们设计了两个不同模型大小的模型。我们将在功率谱图和Mel谱图上训练的全尺寸模型分别称为PowCRN32和MelCRN32，窄尺寸模型分别称为PowCRN16和MelCRN16。CRN的详细信息显示在表1中作为比较，还评估了LSTM-based模型，该模型由两个隐藏层（384个双向LSTM单元）和一个线性投影层（241个单元）组成。我们将这种增强模型称为BiLSTM[6]。模型尺寸在表2在标签中。在表2，我们列出了每个模型的乘法次数计算的参数数和计算复杂度。

Table 1:小型CRN的体系结构。T表示频谱图中的时间帧数。对于窄尺寸和全尺寸CRN，分别将（f，h）设置为（16,32）和（32,64）。对于卷积层和反卷积层，该参数表示内核大小、步长和过滤器数量。h表示双向LSTM单元的数量。

Table 2: KWS系统和不同增强模型使用的参数和倍数数量。

除了使用多条件训练技术的基线cnn-trad-pool2之外，我们还对所有其他基于增强前端的模型应用了三种训练策略。

首先，根据方程（1）中的均方误差损失对增强模型进行预训练。

然后，通过特征转换块将增强模型连接到KWS模型。

在这些基于增强前端的模型中，KWS模型可以单独使用有噪声话语的MFCC进行训练，我们称之为KWS+{enhancement model}。

KWS模型也可以单独使用增强谱图的MFCC进行训练，我们称之为retrain+{enhancement model}。

事实上，KWS模型和增强模型可以与噪声谱图一起训练，我们称之为联合增强模型joint+{enhancement model}。

Table 3: 匹配噪声条件下各模型的测试精度、EER和AUR。

Table 4: 联合试验模型在非匹配噪声条件下的测试精度。

Figure 3: 从（a）不同增强模型，（b）训练策略，（c）特征域的角度来看ROC。（d）AUC相对于音标长度的减少。

实验结果见表1、3和图3。

模型比较：从表3和图3（a），我们可以看到所有的比较模型都优于基线。基于BiLSTM的模型性能良好，但其参数数量和计算量最大（见表2），不能满足小占地面积的目的。所提出的CRN具有可接受的参数，需要较少的计算量，但与基于BiLSTM的模型相比，其性能相当。窄模型（PowCRN16、MelCRN16）中的参数和所需倍数进一步减少，但其性能也与基于BiLSTM的模型相当。

训练策略：从表3和图3（b），我们可以看到所有基于增强前端的模型都优于多条件训练基线。具体来说，用增强谱图训练的再训练KWS模型优于用含噪语音训练的KWS模型，联合训练的KWS模型优于再训练的KWS模型。这是因为增强模型与KWS模型之间的不匹配以干净话语训练模型、再训练模型和联合训练模型的顺序下降。特别是对于小足迹增强模型（PowCRNs和MelCRNs），联合训练策略显著提高了性能。

Mel vs功率谱图：来自表3和图3（c），我们发现，在与功率谱图上训练的模型相比，Mel谱图上训练的CRN具有更好的性能和相似的参数。由于Mel谱图的维数远小于功率谱图，因此可以显著降低增强模型的倍数。我们认为Mel谱图更适合KWS系统。由于KWS系统的输入总是静音、背景噪音或非语音，因此必须尽量减少虚警（误警率）。在低FAR（<2.0%）的限制下，我们发现MelCRN32的FRR值低于PowCRN32和BiLSTM。窄模型也保留了这一优势。

对音标长度的敏感性：由于关键字具有不同的音标（符号），我们想知道增强模型是否对关键字中音标的数量敏感。我们将数据集分为两组，即包含2个或更多语音符号的关键字。图3（d）显示了具有不同音标数量的关键字的AUC减少，其中减少越少越好。从图中可以看出，与功率谱图上的模型相比，基于Mel谱图的方法对关键词中的语音符号数不那么敏感。

噪声泛化：表4显示了在包含100个不可见噪声的不匹配噪声条件下的联合训练模型的结果。从表中可以看出，与BiLSTM相比，建议的全尺寸CRN对新的噪声条件具有更好的泛化能力。Mel谱域上的CRN比功率谱域上的CRN具有更高的精度。