AEC论文解读 -- MULTI-SCALE TEMPORAL FREQUENCY CONVOLUTIONAL NETWORK WITH AXIAL ATTENTION FOR SPEECH ENHA

本文链接：https://blog.youkuaiyun.com/qq_34941290/article/details/144345783

一、技术解读

二、全文翻译：基于轴向注意力的多尺度时间频率卷积网络用于语音增强

2.0 摘要

语音质量常因声学回声、背景噪声和混响而降低。本文提出了一个结合深度学习和信号处理的系统，用于同时抑制回声、噪声和混响。在深度学习部分，我们设计了一个新颖的语音密集预测骨干网络。在信号处理部分，使用线性声学回声消除器（LAEC）作为深度学习的条件信息。为了提高语音密集预测骨干的性能，设计了麦克风和参考相位编码器、多尺度时频处理和流式轴向注意力等策略。所提出的系统在ICASSP 2022的AEC和DNS Challenge（非个人赛道）中均排名第一。此外，该骨干网络还扩展到了多通道语音增强任务，并在ICASSP 2022 L3DAS22 Challenge中排名第二。

关键词 — 语音密集预测，语音增强，多尺度，轴向注意力

2.1 引言

在语音通信应用中，如语音交互或视频会议系统，语音质量常因声学回声、背景噪声和混响而降低。为了抑制声学回声，可以采用称为线性声学回声消除器（LAEC）的音频处理组件。
然而，由于扬声器的非线性失真和振动效应，LAEC的性能严重下降。因此，通常需要基于信号处理（SP）或深度神经网络（DNN）的残余回声抑制器（RES）来进一步抑制声学回声。基于DNN的RES比基于SP的方法能取得更好的性能。此外，DNN在去除背景噪声和抑制混响方面也取得了显著的成果。
在这项工作中，我们提出了一个用于同时去噪、去混响和回声消除的系统。该系统是SP和DNN的结合。SP部分包括基于广义相关的时间延迟补偿器（TDC）和基于双回声路径模型的LAEC，以及PNLMS自适应滤波器。对于DNN部分，我们提出了一个新颖的语音密集预测骨干，称为多尺度时频卷积网络与轴向自注意力（MTFAA-Net）。在这项工作中，我们的贡献包括：
- 对于回声消除，我们设计了一种新颖的SP和DNN的组合。与之前将LAEC和DNN串联不同，我们仅将LAEC作为DNN的条件信息，避免了将LAEC引入的目标语音估计中的失真。
- 提出了一个用于各种语音密集预测任务的骨干网络。设计了相位编码器（PE）、多尺度时频处理和流式轴向自注意力（ASA），以提高骨干网络的性能。在PE之后应用了根据等效矩形带宽（ERB）的频带合并模块，以低计算复杂度处理全频带信号。
ICASSP 2022 AEC Challenge 和 ICASSP 2022 DNS Challenge的评估集和盲测集的结果表明，所提出的方案在回声消除、去噪和去混响方面取得了令人印象深刻的性能。
本文的其余部分组织如下。第2节提出了问题表述。第3节提供了所提出的语音增强骨干的细节。第4节展示了数据集和实验结果。最后，我们在第5节得出结论。

2.2 问题表述

让我们考虑在短时傅里叶变换（STFT）域中的信号模型。麦克风信号 $Y (t, f)$ 由回声 $E (t, f)$ 、背景噪声 $N (t, f)$ 和近端语音与混响 $s(t, f)H^e(f) + s(t, f)H^l(f)$ 组成。我们将此模型表示为：
$Y(t, f) = s(t, f)H^e(f) + s(t, f)H^l(f) + E(t, f) + N(t, f)$
其中 $s(t, f)H^e(f)$ 和 $s(t, f)H^l(f)$ 分别是与房间脉冲响应（RIR）的早期部分 $H^e(f)$ 和晚期反射 $H^l(f)$ 卷积的近端语音。 $t, f$ 分别是时间和频率的索引。 $s(t, f)H^e(f)$ 将被视为要估计的目标。

LAEC的输出 $Y_{laec}(t, f)$ 可以被视为干净语音、残余回声、混响和背景噪声的混合。与之前只将 $Y_{laec}(t, f)$ 和远端参考信号输入网络的方案不同，本文提出的网络还接受 $Y (t, f)$ 作为输入，这可以避免由LAEC引入的失真导致的性能下降，并且它还帮助网络识别哪些T-F区域已经被LAEC因回声的存在而抑制。

2.3 所提出的语音密集预测骨干

在这里插入图片描述
在本节中，我们将展示所提出的架构的细节。图1显示了带有LAEC和TDC的MTFAA-Net的总体结构。MTFAA-Net由PE、频带合并（BM）和频带分割（BS）模块、掩模估计和应用（MEA）模块以及Main-Net模块组成。Main-Net包括几个相似的部分，每个部分由频率下采样（FD）或频率上采样（FU）、时频卷积和ASA组成。通过一些微调，MTFAA-Net可以应用于各种语音密集预测任务。

2.3.1 相位编码器

在这里插入图片描述

真实的语音增强网络更容易实现，并在许多数据集上取得了最先进的结果。骨干网络的主要部分也是一个实数网络。为了将复数频谱特征映射到实数，我们设计了一个PE模块，如图2.(a)所示。在PE模块中，有三个复数卷积层，分别接收麦克风信号、LAEC输出和远端参考信号。复数卷积层的核大小和步长分别为（3,1）和（1,1）。此外，PE还包含一个复数到实数层（复数模）和一个特征动态范围压缩（FDRC）层。FDRC用于减少语音特征的动态范围，这将使模型更加健壮。

2.3.2 频带合并和分割

语音有价值信息的分布频率维度是不均匀的，尤其是对于全频带信号。在高频带中有很多冗余特征。在高频合并特征可以减少冗余。BS是BM的逆过程。在本文中，BM和BS带根据ERB尺度间隔。

2.3.3 TF-卷积模块

我们使用2D深度卷积（D-Conv）而不是1D D-Conv在时卷积网络（TCN）中。D-Conv也设计为在时间维度上的扩张卷积，可以看作是沿时间域的多尺度建模。TF卷积模块（TFCM）使用的卷积块如图2.(b)所示，由两个逐点卷积（P-Conv）层和一个核大小为（3,3）的D-Conv层组成。B个卷积块，其扩张从1到 $2^{B-1}$ 串联在一起形成TFCM。多尺度建模提高了TFCM的感受野，同时使用了小卷积核。

2.3.4 轴向自注意力

自注意力可以提高网络捕获特征之间长距离关系的能力。与计算机视觉中的像素或块级注意力不同，本文提出了一种用于语音的ASA机制。ASA可以减少内存和计算的需求，更适合于像语音这样的长序列信号。图2.(d)显示了ASA的结构，其中( C_i )和( C )分别表示输入和注意力通道数。ASA的注意力分数矩阵沿频率和时间轴计算，分别称为F-注意力和T-注意力。分数矩阵可以表示为：
$M_F(t) = \text{Softmax}(Q_f(t)K_T^f(t))$
$M_T(f) = \text{Softmax}(\text{Mask}(Q_t(f)K_T^t(f)))$
其中 $Q_f(t)$ , $K_f(t) \in R^{T \times C}$ , $M_F(t) \in R^{F \times F}$ 分别表示 $F -$ 注意力在帧 $t$ 的键、查询和分数矩阵。 $Q_t(f)$ , $K_t(f) \in R^{F \times C}$ , $M_T(f) \in R^{T \times T}$ 分别表示 $T -$ 注意力在频带 $f$ 的键、查询和分数矩阵。 $T, F$ 分别表示帧数和频带数。Softmax将沿最后一个维度计算。 $T -$ 注意力中的 $M a s k (*)$ 用于调整ASA捕获的时间依赖性长度。对于MTFAA-Net-Streaming，掩蔽输入矩阵的上三角部分，这导致因果ASA。

2.3.5 频率下采样和上采样

FD和FU采样旨在提取多尺度特征。在每个尺度上，TFCM和ASA用于特征建模，这将提高网络描述特征的能力。FD是一个卷积块，包含一个Conv2D层，一个批量归一化（BN）层和一个Prelu激活层。FU如图2.©所示，其中Deconv2D是转置卷积。Conv2D和Deconv2D的核大小、步长和组分别为（1, 7），（1, 4）和2。FU中使用了门控机制。

2.3.6 掩模估计和应用

掩模估计和应用（MEA）模块包括两个阶段。第一阶段估计大小为 $(2 V + 1, 2 U + 1)$ 的实掩模，并以深度滤波器的形式将其应用于幅度谱。第二阶段估计复掩模，并将其应用于幅度和相位谱。正式地，增强谱的实部 $R^{s2}(t, f)$ 和虚部 $I^{s2}(t, f)$ 可以表示为：

$A_{s1}(t, f) = \sum_{u=-U}^{U} \sum_{v=-V}^{V} |Y(t + u, f + v)| \cdot M_{s1}(t, f, u, v)$
$R_{s2}(t, f) = A_{s1}(t, f) \cdot M_{s2A}(t, f) \cdot \cos(\theta_Y(t, f) + M_{s2\theta}(t, f))$
$I_{s2}(t, f) = A_{s1}(t, f) \cdot M_{s2A}(t, f) \cdot \sin(\theta_Y(t, f) + M_{s2\theta}(t, f))$

其中 $M^{s1}(t, f, u, v)$ , $A^{s1}(t, f)$ 分别表示第一阶段估计的掩模和增强的幅度谱。 $\theta_Y(t, f)$ 表示噪声语音的相位谱。 $M^{s2}_A(t, f)$ , $M^{s2}_{\theta}(t, f)$ 分别表示第二阶段掩模的幅度和相位部分。

2.4 实验

2.4.1 数据集

训练和评估集是使用干净的语音、背景噪声、回声和RIR集合成的。我们使用DNS42的语音和噪声剪辑进行训练。VCTK语料库和DEMAND用作评估语音和噪声集。ICASSP 2022 AEC Challenge训练和开发远端单讲剪辑用作训练和评估回声集。对于RIR，我们使用图像源方法获得100,000和1,000对RIRs，混响时间从0.1s到0.8s，分别用于训练和评估。所有集合的采样率为48kHz。信噪比（SNR）和信回声比（SER）分别设置为[-5, 15]dB和[-10, 10]dB用于训练，评估时分别为[0, 10]dB和[-5, 5]dB。

2.4.2 实现细节

我们使用STFT复数谱，跳跃长度为8ms，帧长为32ms作为输入。FDRC使用1/2功率压缩。PE中复数卷积层的输出通道数为4。三个FD的输出通道数分别为48、96和192。一个TFCM中的卷积块数为6。ASA中的注意力通道数是其输入通道数的1/4。ERB带数设置为256。MEA中实掩模的大小配置为（3, 1）。对于MTFAA-Net-Streaming，卷积层和ASAs也配置为因果关系，总系统延迟为40ms。目标语音RIR的权重函数配置与[17]中相同。使用STFT一致性[18]的功率律压缩谱的均方误差作为损失函数。我们使用Adam作为优化器，学习率为5e-4。我们用16的批量大小训练MTFAA-Net 300k步。

2.4.3 结果

2.4.3.1 消融研究

我们首先评估MTFAA-Net不同模块的有效性。表1显示了消融结果。去除ASA后，模型在所有三个任务上的性能都下降了，在回声任务上的PESQ下降了0.12。同时去除ASA并将TFCM的扩张设置为1时，回声任务上的PESQ下降了0.26。通过引入LAEC的附加条件信息，模型在回声任务上的性能可以进一步提高。然而，如果简单地将LAEC和模型串联在一起，由于LAEC引入的失真，系统的性能将下降。
在这里插入图片描述

2.4.3.2 与最新技术的比较

表2和表3显示了由AEC和DNS Challenge组织者提供的主观和词准确率（WAcc）结果。可以发现，所提出的方案在主观评估中以较大的优势超过了其他方法。对于AEC Challenge，与Team 4相比，主观-MOS上获得了0.072的增益。对于DNS Challenge，与Team14相比，BAK-MOS上获得了0.47的增益。系统在两个挑战中均排名第一，证明了所提出的骨干网络的鲁棒性能。
在这里插入图片描述

我们还去除了SP部分，并在DNS宽带非盲测试集上进行了比较评估。训练和评估集与SN-Net相同。结果如表4所示。MTFAA-Net以较大的优势超过了所有其他方法。
在这里插入图片描述我们还评估了推理时间。在第4.2节的配置下，MTFAA-Net的乘累加操作数量约为每秒2.4G。所提出的系统用Python实现的实时因子约为0.6（在配备Intel Core i5核心的MacBook Pro上），满足实时处理要求。

2.5 结论

本文提出了MTFAA-Net，一个新的语音密集预测任务的骨干网络。在引入LAEC的条件信息后，MTFAA-Net在ICASSP 2022的AEC和DNS Challenge中均取得了最先进的性能。我们希望MTFAA-Net的鲁棒性能将鼓励更多的语音密集预测任务的统一建模。未来，我们将提高所提出骨干的能力，并将骨干扩展到其他各种任务，如个人语音增强、声源分离等。