一、技术解读
二、全文翻译:基于轴向注意力的多尺度时间频率卷积网络用于语音增强
2.0 摘要
语音质量常因声学回声、背景噪声和混响而降低。本文提出了一个结合深度学习和信号处理的系统,用于同时抑制回声、噪声和混响。在深度学习部分,我们设计了一个新颖的语音密集预测骨干网络。在信号处理部分,使用线性声学回声消除器(LAEC)作为深度学习的条件信息。为了提高语音密集预测骨干的性能,设计了麦克风和参考相位编码器、多尺度时频处理和流式轴向注意力等策略。所提出的系统在ICASSP 2022的AEC和DNS Challenge(非个人赛道)中均排名第一。此外,该骨干网络还扩展到了多通道语音增强任务,并在ICASSP 2022 L3DAS22 Challenge中排名第二。
关键词 — 语音密集预测,语音增强,多尺度,轴向注意力
2.1 引言
在语音通信应用中,如语音交互或视频会议系统,语音质量常因声学回声、背景噪声和混响而降低。为了抑制声学回声,可以采用称为线性声学回声消除器(LAEC)的音频处理组件。
然而,由于扬声器的非线性失真和振动效应,LAEC的性能严重下降。因此,通常需要基于信号处理(SP)或深度神经网络(DNN)的残余回声抑制器(RES)来进一步抑制声学回声。基于DNN的RES比基于SP的方法能取得更好的性能。此外,DNN在去除背景噪声和抑制混响方面也取得了显著的成果。
在这项工作中,我们提出了一个用于同时去噪、去混响和回声消除的系统。该系统是SP和DNN的结合。SP部分包括基于广义相关的时间延迟补偿器(TDC)和基于双回声路径模型的LAEC,以及PNLMS自适应滤波器。对于DNN部分,我们提出了一个新颖的语音密集预测骨干,称为多尺度时频卷积网络与轴向自注意力(MTFAA-Net)。在这项工作中,我们的贡献包括:
- 对于回声消除,我们设计了一种新颖的SP和DNN的组合。与之前将LAEC和DNN串联不同,我们仅将LAEC作为DNN的条件信息,避免了将LAEC引入的目标语音估计中的失真。
- 提出了一个用于各种语音密集预测任务的骨干网络。设计了相位编码器(PE)、多尺度时频处理和流式轴向自注意力(ASA),以提高骨干网络的性能。在PE之后应用了根据等效矩形带宽(ERB)的频带合并模块,以低计算复杂度处理全频带信号。
ICASSP 2022 AEC Challenge 和 ICASSP 2022 DNS Challenge的评估集和盲测集的结果表明,所提出的方案在回声消除、去噪和去混响方面取得了令人印象深刻的性能。
本文的其余部分组织如下。第2节提出了问题表述。第3节提供了所提出的语音增强骨干的细节。第4节展示了数据集和实验结果。最后,我们在第5节得出结论。
2.2 问题表述
让我们考虑在短时傅里叶变换(STFT)域中的信号模型。麦克风信号
Y
(
t
,
f
)
Y(t, f)
Y(t,f)由回声
E
(
t
,
f
)
E(t, f)
E(t,f)、背景噪声
N
(
t
,
f
)
N(t, f)
N(t,f)和近端语音与混响
s
(
t
,
f
)
H
e
(
f
)
+
s
(
t
,
f
)
H
l
(
f
)
s(t, f)H^e(f) + s(t, f)H^l(f)
s(t,f)He(f)+s(t,f)Hl(f)组成。我们将此模型表示为:
Y
(
t
,
f
)
=
s
(
t
,
f
)
H
e
(
f
)
+
s
(
t
,
f
)
H
l
(
f
)
+
E
(
t
,
f
)
+
N
(
t
,
f
)
Y(t, f) = s(t, f)H^e(f) + s(t, f)H^l(f) + E(t, f) + N(t, f)
Y(t,f)=s(t,f)He(f)+s(t,f)Hl(f)+E(t,f)+N(t,f)
其中
s
(
t
,
f
)
H
e
(
f
)
s(t, f)H^e(f)
s(t,f)He(f)和
s
(
t
,
f
)
H
l
(
f
)
s(t, f)H^l(f)
s(t,f)Hl(f)分别是与房间脉冲响应(RIR)的早期部分
H
e
(
f
)
H^e(f)
He(f)和晚期反射
H
l
(
f
)
H^l(f)
Hl(f)卷积的近端语音。
t
,
f
t, f
t,f分别是时间和频率的索引。
s
(
t
,
f
)
H
e
(
f
)
s(t, f)H^e(f)
s(t,f)He(f)将被视为要估计的目标。
LAEC的输出 Y l a e c ( t , f ) Y_{laec}(t, f) Ylaec(t,f)可以被视为干净语音、残余回声、混响和背景噪声的混合。与之前只将 Y l a e c ( t , f ) Y_{laec}(t, f) Ylaec(t,f)和远端参考信号输入网络的方案不同,本文提出的网络还接受 Y ( t , f ) Y(t, f) Y(t,f)作为输入,这可以避免由LAEC引入的失真导致的性能下降,并且它还帮助网络识别哪些T-F区域已经被LAEC因回声的存在而抑制。
2.3 所提出的语音密集预测骨干
在本节中,我们将展示所提出的架构的细节。图1显示了带有LAEC和TDC的MTFAA-Net的总体结构。MTFAA-Net由PE、频带合并(BM)和频带分割(BS)模块、掩模估计和应用(MEA)模块以及Main-Net模块组成。Main-Net包括几个相似的部分,每个部分由频率下采样(FD)或频率上采样(FU)、时频卷积和ASA组成。通过一些微调,MTFAA-Net可以应用于各种语音密集预测任务。
2.3.1 相位编码器
真实的语音增强网络更容易实现,并在许多数据集上取得了最先进的结果。骨干网络的主要部分也是一个实数网络。为了将复数频谱特征映射到实数,我们设计了一个PE模块,如图2.(a)所示。在PE模块中,有三个复数卷积层,分别接收麦克风信号、LAEC输出和远端参考信号。复数卷积层的核大小和步长分别为(3,1)和(1,1)。此外,PE还包含一个复数到实数层(复数模)和一个特征动态范围压缩(FDRC)层。FDRC用于减少语音特征的动态范围,这将使模型更加健壮。
2.3.2 频带合并和分割
语音有价值信息的分布频率维度是不均匀的,尤其是对于全频带信号。在高频带中有很多冗余特征。在高频合并特征可以减少冗余。BS是BM的逆过程。在本文中,BM和BS带根据ERB尺度间隔。
2.3.3 TF-卷积模块
我们使用2D深度卷积(D-Conv)而不是1D D-Conv在时卷积网络(TCN)中。D-Conv也设计为在时间维度上的扩张卷积,可以看作是沿时间域的多尺度建模。TF卷积模块(TFCM)使用的卷积块如图2.(b)所示,由两个逐点卷积(P-Conv)层和一个核大小为(3,3)的D-Conv层组成。B个卷积块,其扩张从1到 2 B − 1 2^{B-1} 2B−1串联在一起形成TFCM。多尺度建模提高了TFCM的感受野,同时使用了小卷积核。
2.3.4 轴向自注意力
自注意力可以提高网络捕获特征之间长距离关系的能力。与计算机视觉中的像素或块级注意力不同,本文提出了一种用于语音的ASA机制。ASA可以减少内存和计算的需求,更适合于像语音这样的长序列信号。图2.(d)显示了ASA的结构,其中( C_i )和( C )分别表示输入和注意力通道数。ASA的注意力分数矩阵沿频率和时间轴计算,分别称为F-注意力和T-注意力。分数矩阵可以表示为:
M
F
(
t
)
=
Softmax
(
Q
f
(
t
)
K
T
f
(
t
)
)
M_F(t) = \text{Softmax}(Q_f(t)K_T^f(t))
MF(t)=Softmax(Qf(t)KTf(t))
M
T
(
f
)
=
Softmax
(
Mask
(
Q
t
(
f
)
K
T
t
(
f
)
)
)
M_T(f) = \text{Softmax}(\text{Mask}(Q_t(f)K_T^t(f)))
MT(f)=Softmax(Mask(Qt(f)KTt(f)))
其中
Q
f
(
t
)
Q_f(t)
Qf(t),
K
f
(
t
)
∈
R
T
×
C
K_f(t) \in R^{T \times C}
Kf(t)∈RT×C,
M
F
(
t
)
∈
R
F
×
F
M_F(t) \in R^{F \times F}
MF(t)∈RF×F分别表示
F
−
F-
F−注意力在帧
t
t
t的键、查询和分数矩阵。
Q
t
(
f
)
Q_t(f)
Qt(f),
K
t
(
f
)
∈
R
F
×
C
K_t(f) \in R^{F \times C}
Kt(f)∈RF×C,
M
T
(
f
)
∈
R
T
×
T
M_T(f) \in R^{T \times T}
MT(f)∈RT×T分别表示
T
−
T-
T−注意力在频带
f
f
f的键、查询和分数矩阵。
T
,
F
T, F
T,F分别表示帧数和频带数。Softmax将沿最后一个维度计算。
T
−
T-
T−注意力中的
M
a
s
k
(
∗
)
Mask(*)
Mask(∗)用于调整ASA捕获的时间依赖性长度。对于MTFAA-Net-Streaming,掩蔽输入矩阵的上三角部分,这导致因果ASA。
2.3.5 频率下采样和上采样
FD和FU采样旨在提取多尺度特征。在每个尺度上,TFCM和ASA用于特征建模,这将提高网络描述特征的能力。FD是一个卷积块,包含一个Conv2D层,一个批量归一化(BN)层和一个Prelu激活层。FU如图2.©所示,其中Deconv2D是转置卷积。Conv2D和Deconv2D的核大小、步长和组分别为(1, 7),(1, 4)和2。FU中使用了门控机制。
2.3.6 掩模估计和应用
掩模估计和应用(MEA)模块包括两个阶段。第一阶段估计大小为 ( 2 V + 1 , 2 U + 1 ) (2V + 1, 2U + 1) (2V+1,2U+1)的实掩模,并以深度滤波器的形式将其应用于幅度谱。第二阶段估计复掩模,并将其应用于幅度和相位谱。正式地,增强谱的实部 R s 2 ( t , f ) R^{s2}(t, f) Rs2(t,f)和虚部 I s 2 ( t , f ) I^{s2}(t, f) Is2(t,f)可以表示为:
A
s
1
(
t
,
f
)
=
∑
u
=
−
U
U
∑
v
=
−
V
V
∣
Y
(
t
+
u
,
f
+
v
)
∣
⋅
M
s
1
(
t
,
f
,
u
,
v
)
A_{s1}(t, f) = \sum_{u=-U}^{U} \sum_{v=-V}^{V} |Y(t + u, f + v)| \cdot M_{s1}(t, f, u, v)
As1(t,f)=u=−U∑Uv=−V∑V∣Y(t+u,f+v)∣⋅Ms1(t,f,u,v)
R
s
2
(
t
,
f
)
=
A
s
1
(
t
,
f
)
⋅
M
s
2
A
(
t
,
f
)
⋅
cos
(
θ
Y
(
t
,
f
)
+
M
s
2
θ
(
t
,
f
)
)
R_{s2}(t, f) = A_{s1}(t, f) \cdot M_{s2A}(t, f) \cdot \cos(\theta_Y(t, f) + M_{s2\theta}(t, f))
Rs2(t,f)=As1(t,f)⋅Ms2A(t,f)⋅cos(θY(t,f)+Ms2θ(t,f))
I
s
2
(
t
,
f
)
=
A
s
1
(
t
,
f
)
⋅
M
s
2
A
(
t
,
f
)
⋅
sin
(
θ
Y
(
t
,
f
)
+
M
s
2
θ
(
t
,
f
)
)
I_{s2}(t, f) = A_{s1}(t, f) \cdot M_{s2A}(t, f) \cdot \sin(\theta_Y(t, f) + M_{s2\theta}(t, f))
Is2(t,f)=As1(t,f)⋅Ms2A(t,f)⋅sin(θY(t,f)+Ms2θ(t,f))
其中 M s 1 ( t , f , u , v ) M^{s1}(t, f, u, v) Ms1(t,f,u,v), A s 1 ( t , f ) A^{s1}(t, f) As1(t,f)分别表示第一阶段估计的掩模和增强的幅度谱。 θ Y ( t , f ) \theta_Y(t, f) θY(t,f)表示噪声语音的相位谱。 M A s 2 ( t , f ) M^{s2}_A(t, f) MAs2(t,f), M θ s 2 ( t , f ) M^{s2}_{\theta}(t, f) Mθs2(t,f)分别表示第二阶段掩模的幅度和相位部分。
2.4 实验
2.4.1 数据集
训练和评估集是使用干净的语音、背景噪声、回声和RIR集合成的。我们使用DNS42的语音和噪声剪辑进行训练。VCTK语料库和DEMAND用作评估语音和噪声集。ICASSP 2022 AEC Challenge训练和开发远端单讲剪辑用作训练和评估回声集。对于RIR,我们使用图像源方法获得100,000和1,000对RIRs,混响时间从0.1s到0.8s,分别用于训练和评估。所有集合的采样率为48kHz。信噪比(SNR)和信回声比(SER)分别设置为[-5, 15]dB和[-10, 10]dB用于训练,评估时分别为[0, 10]dB和[-5, 5]dB。
2.4.2 实现细节
我们使用STFT复数谱,跳跃长度为8ms,帧长为32ms作为输入。FDRC使用1/2功率压缩。PE中复数卷积层的输出通道数为4。三个FD的输出通道数分别为48、96和192。一个TFCM中的卷积块数为6。ASA中的注意力通道数是其输入通道数的1/4。ERB带数设置为256。MEA中实掩模的大小配置为(3, 1)。对于MTFAA-Net-Streaming,卷积层和ASAs也配置为因果关系,总系统延迟为40ms。目标语音RIR的权重函数配置与[17]中相同。使用STFT一致性[18]的功率律压缩谱的均方误差作为损失函数。我们使用Adam作为优化器,学习率为5e-4。我们用16的批量大小训练MTFAA-Net 300k步。
2.4.3 结果
2.4.3.1 消融研究
我们首先评估MTFAA-Net不同模块的有效性。表1显示了消融结果。去除ASA后,模型在所有三个任务上的性能都下降了,在回声任务上的PESQ下降了0.12。同时去除ASA并将TFCM的扩张设置为1时,回声任务上的PESQ下降了0.26。通过引入LAEC的附加条件信息,模型在回声任务上的性能可以进一步提高。然而,如果简单地将LAEC和模型串联在一起,由于LAEC引入的失真,系统的性能将下降。
2.4.3.2 与最新技术的比较
表2和表3显示了由AEC和DNS Challenge组织者提供的主观和词准确率(WAcc)结果。可以发现,所提出的方案在主观评估中以较大的优势超过了其他方法。对于AEC Challenge,与Team 4相比,主观-MOS上获得了0.072的增益。对于DNS Challenge,与Team14相比,BAK-MOS上获得了0.47的增益。系统在两个挑战中均排名第一,证明了所提出的骨干网络的鲁棒性能。
我们还去除了SP部分,并在DNS宽带非盲测试集上进行了比较评估。训练和评估集与SN-Net相同。结果如表4所示。MTFAA-Net以较大的优势超过了所有其他方法。
我们还评估了推理时间。在第4.2节的配置下,MTFAA-Net的乘累加操作数量约为每秒2.4G。所提出的系统用Python实现的实时因子约为0.6(在配备Intel Core i5核心的MacBook Pro上),满足实时处理要求。
2.5 结论
本文提出了MTFAA-Net,一个新的语音密集预测任务的骨干网络。在引入LAEC的条件信息后,MTFAA-Net在ICASSP 2022的AEC和DNS Challenge中均取得了最先进的性能。我们希望MTFAA-Net的鲁棒性能将鼓励更多的语音密集预测任务的统一建模。未来,我们将提高所提出骨干的能力,并将骨干扩展到其他各种任务,如个人语音增强、声源分离等。