DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for Speech Enhancement

最新推荐文章于 2024-08-12 08:51:41 发布

Aidanmomo

最新推荐文章于 2024-08-12 08:51:41 发布

阅读量3.2k

点赞数

CC 4.0 BY-SA版权

分类专栏：语音增强文章标签：深度学习神经网络人工智能

本文链接：https://blog.youkuaiyun.com/aidanmo/article/details/122201974

文章目录

0. 摘要
1. Introduction
2. DCCRN+
3. Experiments

0. 摘要

DCCRN深度复数卷积循环网络在CRN的基础上进行了复数结构的扩展，其在Interspeech DNS2020挑战赛中取得了较好的成绩。本文在DCCRN的基础上进一步改进。

对模型进行子带处理扩展，使用可学习的神经网络滤波器代替FIR滤波器进行频带的分割、合并，从而以端到端的方式训练更快的噪声抑制器。
使用复数TF-LSTM代替原来的LSTM，更好的对时间和频率维度时序依赖进行建模。
encoder与decoder之间的skip connection不再是简单的直接合并，而是先经过卷积块对重要信息进行提取，再传递到decoder。
增加一个额外的先验SNR估计模块来规范decoder，从而在去除噪声的同时保持语音质量。
使用后处理模块对不自然的残留噪声进行处理。
新模型命名为DCCRN+，其在Interspeech2021 DNS challenge中获得了最佳性能。

1. Introduction

最近的一些研究，包括新的 DNS 挑战倡议 [2]，指出许多神经噪声抑制器非常擅长抑制噪声，但并没有提高语音质量，甚至引入了明显的语音失真。

Mapping和Masking策略是两种常用的基于深度学习的语音增强方法。mask-based方法逐渐成为主流方法，因为其限制了动态范围，往往能够快速收敛。常见的mask包括IBM【4】， IRM【5】和SMM【4】，上述方法忽略了相位信息。因此，最近的研究开始关注对相位信息进行建模的PSM（phase-sensitive mask）【7】和CRM(complex ratio mask)【8】方法。

本文在DCCRN的基础上，进一步提出DCCRN+模型，目的是在降低噪声干扰的同时，提升语音质量。
1）通过可学习的神经网络滤波器，使模型具备了子带处理能力，这一改进比FIR滤波器在PESQ分数方面提升了0.17，同时保持了与DCCRN相同的PESQ分数。
2）改进skip connection，使用复数TF-LSTM建模时序依赖，额外提升了0.05的PESQ得分。
3）为了提升语音质量，本文使用先验SNR估计模块formulate解码器，进一步提升了0.03的PESQ得分。
4）使用MMSE-LSA后处理的DCCRN+模型在性能上超过了几个最先进的模型，在interspeech DNS2021上获得了最佳性能

2. DCCRN+

2.1 The new design

网络模型如下图所示：
在这里插入图片描述
模型的主体结构与DCCRN类似。主要包含以下改动：

在encoder之前和decoder之后，分别加入了子带处理分割模块和子带处理合并模块
复数TF-LSTM对频率和时间尺度时序依赖进行建模
skip connection要先经过卷积操作提取重要特征，对应图中的Convolution Pathway
加入SNR估计模块
后处理模块

2.2 Subband Processing

子带处理是语音处理的常用方法【16-18】，可减少模型大小，节约计算成本。每个频率子带中的音频可以按照因子K（频带数量）进行下采样，从而降低总计算成本。论文 [19] 提到，频谱图中的局部模式在每个频段中通常是不同的：较低频段往往包含高能量、高音调以及长持续时间的声音，而较高频段可能具有较低的能量成分、噪音和快速衰减的声音。子带分割通常使用有限冲击响应滤波器(FIR)实现【20】，很难为不同的应用设计完美的滤波器。论文【21】提出了可学习的神经网络前端，并取得了较好的结果，该方法可以避免对滤波器进行手工设计。
频带分割模块的输入为经过STFT变换后得到的TF频谱，表示为 $\in R^{T \times F}$ ，其中T表示时间帧数，F表示频点数。本文设计了基于神经网络的分析滤波器 $A_k(f_k)$ ，用于频带分割，其中 $\in 1, ..., K$ 表示子带数量。其中 $f_k \in (F/K) \cdot (k-1),..., (F/K) \cdot k$