AEC论文解读 -- MULTI-SCALE TEMPORAL FREQUENCY CONVOLUTIONAL NETWORK WITH AXIAL ATTENTION FOR SPEECH ENHA

一、技术解读

二、全文翻译:基于轴向注意力的多尺度时间频率卷积网络用于语音增强

2.0 摘要

  语音质量常因声学回声、背景噪声和混响而降低。本文提出了一个结合深度学习和信号处理的系统,用于同时抑制回声、噪声和混响。在深度学习部分,我们设计了一个新颖的语音密集预测骨干网络。在信号处理部分,使用线性声学回声消除器(LAEC)作为深度学习的条件信息。为了提高语音密集预测骨干的性能,设计了麦克风和参考相位编码器、多尺度时频处理和流式轴向注意力等策略。所提出的系统在ICASSP 2022的AEC和DNS Challenge(非个人赛道)中均排名第一。此外,该骨干网络还扩展到了多通道语音增强任务,并在ICASSP 2022 L3DAS22 Challenge中排名第二。

  关键词 — 语音密集预测,语音增强,多尺度,轴向注意力

2.1 引言

  在语音通信应用中,如语音交互或视频会议系统,语音质量常因声学回声、背景噪声和混响而降低。为了抑制声学回声,可以采用称为线性声学回声消除器(LAEC)的音频处理组件。
  然而,由于扬声器的非线性失真和振动效应,LAEC的性能严重下降。因此,通常需要基于信号处理(SP)或深度神经网络(DNN)的残余回声抑制器(RES)来进一步抑制声学回声。基于DNN的RES比基于SP的方法能取得更好的性能。此外,DNN在去除背景噪声和抑制混响方面也取得了显著的成果。
  在这项工作中,我们提出了一个用于同时去噪、去混响和回声消除的系统。该系统是SP和DNN的结合。SP部分包括基于广义相关的时间延迟补偿器(TDC)和基于双回声路径模型的LAEC,以及PNLMS自适应滤波器。对于DNN部分,我们提出了一个新颖的语音密集预测骨干,称为多尺度时频卷积网络与轴向自注意力(MTFAA-Net)。在这项工作中,我们的贡献包括:
  - 对于回声消除,我们设计了一种新颖的SP和DNN的组合。与之前将LAEC和DNN串联不同,我们仅将LAEC作为DNN的条件信息,避免了将LAEC引入的目标语音估计中的失真
  - 提出了一个用于各种语音密集预测任务的骨干网络。设计了相位编码器(PE)、多尺度时频处理和流式轴向自注意力(ASA),以提高骨干网络的性能。在PE之后应用了根据等效矩形带宽(ERB)的频带合并模块,以低计算复杂度处理全频带信号。
  ICASSP 2022 AEC Challenge 和 ICASSP 2022 DNS Challenge的评估集和盲测集的结果表明,所提出的方案在回声消除、去噪和去混响方面取得了令人印象深刻的性能。
  本文的其余部分组织如下。第2节提出了问题表述。第3节提供了所提出的语音增强骨干的细节。第4节展示了数据集和实验结果。最后,我们在第5节得出结论。

2.2 问题表述

  让我们考虑在短时傅里叶变换(STFT)域中的信号模型。麦克风信号 Y ( t , f ) Y(t, f) Y(t,f)由回声 E ( t , f ) E(t, f) E(t,f)、背景噪声 N ( t , f ) N(t, f) N(t,f)和近端语音与混响 s ( t , f ) H e ( f ) + s ( t , f ) H l ( f ) s(t, f)H^e(f) + s(t, f)H^l(f) s(t,f)He(f)+s(t,f)Hl(f)组成。我们将此模型表示为:
Y ( t , f ) = s ( t , f ) H e ( f ) + s ( t , f ) H l ( f ) + E ( t , f ) + N ( t , f ) Y(t, f) = s(t, f)H^e(f) + s(t, f)H^l(f) + E(t, f) + N(t, f) Y(t,f)=s(t,f)He(f)+s(t,f)Hl(f)+E(t,f)+N(t,f)
  其中 s ( t , f ) H e ( f ) s(t, f)H^e(f) s(t,f)He(f) s ( t , f ) H l ( f ) s(t, f)H^l(f) s(t,f)Hl(f)分别是与房间脉冲响应(RIR)的早期部分 H e ( f ) H^e(f) He(f)和晚期反射 H l ( f ) H^l(f) Hl(f)卷积的近端语音。 t , f t, f t,f分别是时间和频率的索引。 s ( t , f ) H e ( f ) s(t, f)H^e(f) s(t,f)He(f)将被视为要估计的目标。

  LAEC的输出 Y l a e c ( t , f ) Y_{laec}(t, f) Ylaec(t,f)可以被视为干净语音、残余回声、混响和背景噪声的混合。与之前只将 Y l a e c ( t , f ) Y_{laec}(t, f) Ylaec(t,f)和远端参考信号输入网络的方案不同,本文提出的网络还接受 Y ( t , f ) Y(t, f) Y(t,f)作为输入,这可以避免由LAEC引入的失真导致的性能下降,并且它还帮助网络识别哪些T-F区域已经被LAEC因回声的存在而抑制

2.3 所提出的语音密集预测骨干

在这里插入图片描述
  在本节中,我们将展示所提出的架构的细节。图1显示了带有LAEC和TDC的MTFAA-Net的总体结构。MTFAA-Net由PE、频带合并(BM)和频带分割(BS)模块、掩模估计和应用(MEA)模块以及Main-Net模块组成。Main-Net包括几个相似的部分,每个部分由频率下采样(FD)或频率上采样(FU)、时频卷积和ASA组成。通过一些微调,MTFAA-Net可以应用于各种语音密集预测任务。

2.3.1 相位编码器

在这里插入图片描述

  真实的语音增强网络更容易实现,并在许多数据集上取得了最先进的结果。骨干网络的主要部分也是一个实数网络。为了将复数频谱特征映射到实数,我们设计了一个PE模块,如图2.(a)所示。在PE模块中,有三个复数卷积层,分别接收麦克风信号、LAEC输出和远端参考信号。复数卷积层的核大小和步长分别为(3,1)和(1,1)。此外,PE还包含一个复数到实数层(复数模)和一个特征动态范围压缩(FDRC)层。FDRC用于减少语音特征的动态范围,这将使模型更加健壮

2.3.2 频带合并和分割

  语音有价值信息的分布频率维度是不均匀的,尤其是对于全频带信号。在高频带中有很多冗余特征。在高频合并特征可以减少冗余。BS是BM的逆过程。在本文中,BM和BS带根据ERB尺度间隔。

2.3.3 TF-卷积模块

  我们使用2D深度卷积(D-Conv)而不是1D D-Conv在时卷积网络(TCN)中。D-Conv也设计为在时间维度上的扩张卷积,可以看作是沿时间域的多尺度建模。TF卷积模块(TFCM)使用的卷积块如图2.(b)所示,由两个逐点卷积(P-Conv)层和一个核大小为(3,3)的D-Conv层组成。B个卷积块,其扩张从1到 2 B − 1 2^{B-1} 2B1串联在一起形成TFCM。多尺度建模提高了TFCM的感受野,同时使用了小卷积核。

2.3.4 轴向自注意力

  自注意力可以提高网络捕获特征之间长距离关系的能力。与计算机视觉中的像素或块级注意力不同,本文提出了一种用于语音的ASA机制。ASA可以减少内存和计算的需求,更适合于像语音这样的长序列信号。图2.(d)显示了ASA的结构,其中( C_i )和( C )分别表示输入和注意力通道数。ASA的注意力分数矩阵沿频率和时间轴计算,分别称为F-注意力和T-注意力。分数矩阵可以表示为:
M F ( t ) = Softmax ( Q f ( t ) K T f ( t ) ) M_F(t) = \text{Softmax}(Q_f(t)K_T^f(t)) MF(t)=Softmax(Qf(t)KTf(t))
M T ( f ) = Softmax ( Mask ( Q t ( f ) K T t ( f ) ) ) M_T(f) = \text{Softmax}(\text{Mask}(Q_t(f)K_T^t(f))) MT(f)=Softmax(Mask(Qt(f)KTt(f)))
  其中 Q f ( t ) Q_f(t) Qf(t), K f ( t ) ∈ R T × C K_f(t) \in R^{T \times C} Kf(t)RT×C, M F ( t ) ∈ R F × F M_F(t) \in R^{F \times F} MF(t)RF×F分别表示 F − F- F注意力在帧 t t t的键、查询和分数矩阵。 Q t ( f ) Q_t(f) Qt(f), K t ( f ) ∈ R F × C K_t(f) \in R^{F \times C} Kt(f)RF×C, M T ( f ) ∈ R T × T M_T(f) \in R^{T \times T} MT(f)RT×T分别表示 T − T- T注意力在频带 f f f的键、查询和分数矩阵。 T , F T, F T,F分别表示帧数和频带数。Softmax将沿最后一个维度计算。 T − T- T注意力中的 M a s k ( ∗ ) Mask(*) Mask()用于调整ASA捕获的时间依赖性长度。对于MTFAA-Net-Streaming,掩蔽输入矩阵的上三角部分,这导致因果ASA。

2.3.5 频率下采样和上采样

  FD和FU采样旨在提取多尺度特征。在每个尺度上,TFCM和ASA用于特征建模,这将提高网络描述特征的能力。FD是一个卷积块,包含一个Conv2D层,一个批量归一化(BN)层和一个Prelu激活层。FU如图2.©所示,其中Deconv2D是转置卷积。Conv2D和Deconv2D的核大小、步长和组分别为(1, 7),(1, 4)和2。FU中使用了门控机制。

2.3.6 掩模估计和应用

  掩模估计和应用(MEA)模块包括两个阶段。第一阶段估计大小为 ( 2 V + 1 , 2 U + 1 ) (2V + 1, 2U + 1) (2V+1,2U+1)的实掩模,并以深度滤波器的形式将其应用于幅度谱。第二阶段估计复掩模,并将其应用于幅度和相位谱。正式地,增强谱的实部 R s 2 ( t , f ) R^{s2}(t, f) Rs2(t,f)和虚部 I s 2 ( t , f ) I^{s2}(t, f) Is2(t,f)可以表示为:

A s 1 ( t , f ) = ∑ u = − U U ∑ v = − V V ∣ Y ( t + u , f + v ) ∣ ⋅ M s 1 ( t , f , u , v ) A_{s1}(t, f) = \sum_{u=-U}^{U} \sum_{v=-V}^{V} |Y(t + u, f + v)| \cdot M_{s1}(t, f, u, v) As1(t,f)=u=UUv=VVY(t+u,f+v)Ms1(t,f,u,v)
R s 2 ( t , f ) = A s 1 ( t , f ) ⋅ M s 2 A ( t , f ) ⋅ cos ⁡ ( θ Y ( t , f ) + M s 2 θ ( t , f ) ) R_{s2}(t, f) = A_{s1}(t, f) \cdot M_{s2A}(t, f) \cdot \cos(\theta_Y(t, f) + M_{s2\theta}(t, f)) Rs2(t,f)=As1(t,f)Ms2A(t,f)cos(θY(t,f)+Ms2θ(t,f))
I s 2 ( t , f ) = A s 1 ( t , f ) ⋅ M s 2 A ( t , f ) ⋅ sin ⁡ ( θ Y ( t , f ) + M s 2 θ ( t , f ) ) I_{s2}(t, f) = A_{s1}(t, f) \cdot M_{s2A}(t, f) \cdot \sin(\theta_Y(t, f) + M_{s2\theta}(t, f)) Is2(t,f)=As1(t,f)Ms2A(t,f)sin(θY(t,f)+Ms2θ(t,f))

其中 M s 1 ( t , f , u , v ) M^{s1}(t, f, u, v) Ms1(t,f,u,v), A s 1 ( t , f ) A^{s1}(t, f) As1(t,f)分别表示第一阶段估计的掩模和增强的幅度谱。 θ Y ( t , f ) \theta_Y(t, f) θY(t,f)表示噪声语音的相位谱。 M A s 2 ( t , f ) M^{s2}_A(t, f) MAs2(t,f), M θ s 2 ( t , f ) M^{s2}_{\theta}(t, f) Mθs2(t,f)分别表示第二阶段掩模的幅度和相位部分。

2.4 实验

2.4.1 数据集

  训练和评估集是使用干净的语音、背景噪声、回声和RIR集合成的。我们使用DNS42的语音和噪声剪辑进行训练。VCTK语料库和DEMAND用作评估语音和噪声集。ICASSP 2022 AEC Challenge训练和开发远端单讲剪辑用作训练和评估回声集。对于RIR,我们使用图像源方法获得100,000和1,000对RIRs,混响时间从0.1s到0.8s,分别用于训练和评估。所有集合的采样率为48kHz。信噪比(SNR)和信回声比(SER)分别设置为[-5, 15]dB和[-10, 10]dB用于训练,评估时分别为[0, 10]dB和[-5, 5]dB。

2.4.2 实现细节

  我们使用STFT复数谱,跳跃长度为8ms,帧长为32ms作为输入。FDRC使用1/2功率压缩。PE中复数卷积层的输出通道数为4。三个FD的输出通道数分别为48、96和192。一个TFCM中的卷积块数为6。ASA中的注意力通道数是其输入通道数的1/4。ERB带数设置为256。MEA中实掩模的大小配置为(3, 1)。对于MTFAA-Net-Streaming,卷积层和ASAs也配置为因果关系,总系统延迟为40ms。目标语音RIR的权重函数配置与[17]中相同。使用STFT一致性[18]的功率律压缩谱的均方误差作为损失函数。我们使用Adam作为优化器,学习率为5e-4。我们用16的批量大小训练MTFAA-Net 300k步。

2.4.3 结果

2.4.3.1 消融研究

  我们首先评估MTFAA-Net不同模块的有效性。表1显示了消融结果。去除ASA后,模型在所有三个任务上的性能都下降了,在回声任务上的PESQ下降了0.12。同时去除ASA并将TFCM的扩张设置为1时,回声任务上的PESQ下降了0.26。通过引入LAEC的附加条件信息,模型在回声任务上的性能可以进一步提高。然而,如果简单地将LAEC和模型串联在一起,由于LAEC引入的失真,系统的性能将下降。
在这里插入图片描述

2.4.3.2 与最新技术的比较

  表2和表3显示了由AEC和DNS Challenge组织者提供的主观和词准确率(WAcc)结果。可以发现,所提出的方案在主观评估中以较大的优势超过了其他方法。对于AEC Challenge,与Team 4相比,主观-MOS上获得了0.072的增益。对于DNS Challenge,与Team14相比,BAK-MOS上获得了0.47的增益。系统在两个挑战中均排名第一,证明了所提出的骨干网络的鲁棒性能。
在这里插入图片描述
在这里插入图片描述

  我们还去除了SP部分,并在DNS宽带非盲测试集上进行了比较评估。训练和评估集与SN-Net相同。结果如表4所示。MTFAA-Net以较大的优势超过了所有其他方法。
在这里插入图片描述  我们还评估了推理时间。在第4.2节的配置下,MTFAA-Net的乘累加操作数量约为每秒2.4G。所提出的系统用Python实现的实时因子约为0.6(在配备Intel Core i5核心的MacBook Pro上),满足实时处理要求。

2.5 结论

  本文提出了MTFAA-Net,一个新的语音密集预测任务的骨干网络。在引入LAEC的条件信息后,MTFAA-Net在ICASSP 2022的AEC和DNS Challenge中均取得了最先进的性能。我们希望MTFAA-Net的鲁棒性能将鼓励更多的语音密集预测任务的统一建模。未来,我们将提高所提出骨干的能力,并将骨干扩展到其他各种任务,如个人语音增强、声源分离等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值