自用学习论文之DBNet

budangdiyi

已于 2023-09-07 13:29:07 修改

阅读量383

点赞数

文章标签：学习人工智能论文阅读论文笔记

于 2023-09-07 13:28:07 首次发布

本文链接：https://blog.youkuaiyun.com/budangdiyi/article/details/132731905

版权

DBNet: A Dual-branch Network Architecture Processing on Spectrum and Waveform for Single-channel Speech Enhancement

第一章语音增强之《DBNet:一种基于频谱和波形的双分支网络架构，用于单通道语音增强》

前言

语音新手入门，学习读懂论文。
本文作者机构是
在这里插入图片描述

一、做了什么

在本文中，提出了一种新的实时框架，称为DBNet，它是一种具有交替互连的双分支结构。每个分支都包含一个具有跳过连接的编码器/解码器架构，并包含跳跃连接。这两个分支分别负责频谱和波形建模。采用桥接层在两个分支之间交换信息。

二、动机

在真实声环境中，提高受背景噪声和混响干扰的语音质量和清晰度是一项艰巨的任务。在过去的几年里，深度学习在语音增强方面显示出了巨大的潜力。

三、挑战

1.现实中噪声类型的多样性

2.窄带式噪声与语音耦合在一起，很难通过基于时域的增强方法解耦。

3.冲击式噪声难以通过基于频域的语音增强方法消除。

四、方法

1.模型图

在这里插入图片描述

2. SRS模块

首先，SRS考虑了相位信息，提高了语音的可懂度和质量。其次，SRS是实数域内的一种频谱表示方法，而不是复数域，输入的所有元素都是实数。因此，它降低了建模的难度，并为我们模型的信息交互模块提供了便利。基于以上两个优点，本文采用了SRS作为我们的频域输入。

3. Gated Convolution and Group LSTM（门控卷积和组GLSTM）

Dauphin等改进了图像卷积建模中的掩模卷积，提出了门控卷积(GCNN)，描述为:
在这里插入图片描述
其中，W和b分别表示卷积核和偏置。∗和分别表示卷积操作和逐元素乘法。σ表示非线性激活函数。GCNN可以通过为梯度提供线性路径来减少深度结构的梯度消失问题，因此用它代替了原始crn中的卷积。门控卷积的示意图如图3所示。
在这里插入图片描述
Gao等[11]提出了一种分组递归神经网络(RNN)策略，在保证模型性能的同时降低了模型的复杂性。组RNN的处理过程如图4所示。

组LSTM包含两层RNN，每层有两个LSTM来学习每一组内的特征。在两层之间，采用帧级重排的方式建立特征的组间关系，在一定程度上保证了组间相关性的利用。

4. 桥接层

桥接层是一个线性单元，负责将信息从一个分支转换到另一个分支。桥接层由两个与帧长度相同的独立向量组成。这两个向量分别负责信息从时域到频域的转换及其逆过程。我们取快速傅里叶变换(FFT)变量的实部作为这些可训练向量的初始化参数，以适应使用SRS作为频域表示的情况。

五、实验评价

1.实验条件

2.损失函数

早期的实验中，使用了基于STFT幅度的损失函数。
在这里插入图片描述
T和F分别表示时间帧数和频率维数，S和S^{分别表示S和S}的stft。Sr和S^i分别表示S的实部和虚部。
网络的输出包含两个增强的话语，一个来自时间分支，另一个来自频率分支，它们是独立优化的。因此，总损失定义为:
在这里插入图片描述
然而，我们发现量级损失引入了大量未知的工件。虽然不影响客观评价分数，但会带来可怕的听觉感受。因此，在DNS Challenge中，将幅度损失替换为相位约束幅度损失（the phase constrained magnitude loss），并在竞赛中取得了较好的主观评价分数。

3.数据集

在本研究中，我们在WSJ0 SI-84数据集[7]上评估了我们提出的模型的性能，该数据集包括来自83位说话者(42位男性和41位女性)的7138个话语。我们使用77位说话者的话语进行训练，其余的用于测试。我们使用了音效库中的10000个非语音声音(可在www.sound-ideas.com上获得)[13]，并在{-5dB、-4dB、-3dB、-2dB、-1dB、 -0dB}均匀采样的信噪比下分别生成了320000和3000个语音，用于训练和验证。对于测试集，使用Auditec CD(可在http://www.auditec.com上获得)中的两种噪声(咿呀学语和自助餐厅)来生成300种混合，每种信噪比分别为-5dB, 0dB和5dB。

4.基线

在本研究中，我们将所提出的双分支网络与另外3个基线CRN、GCRN和AECNN进行了比较，结果如下：
CRN:它是一个在T-F域的随机卷积循环网络。该网络使用5个卷积层作为编码器，5个反卷积层作为解码器。
两个LSTM层用于序列建模。这个网络接收幅度作为输入。通道数减少，参数数为4.5M。

GCRN:它是一种用于复杂频谱映射的因果门控卷积循环网络。GCRN的结构与CRN相似，不同之处在于GCRN有两个解码器分别对实数和虚数进行建模。网络的输入是复数谱。我们保留了GCRN中的最佳配置，参数个数为9.76M。

AECNN:它是一个基于自编码器的时域全卷积神经网络。原始波形被分割成具有大时间帧大小(1.024秒)的帧。我们保留了AECNN的最佳配置。参数个数为18M。

DBNet:两个分支结构相同。编码器和解码器分别设置6个(解码)卷积块。每层通道数为64个。时间轴和频率轴分别设置内核大小(1,3)和步幅(1,2)。输入分别为时间支路的时间帧和频率支路的SRS。参数个数为2.9M。

5.评价指标

性能用两个客观指标来评估:短时客观可理解性(STOI)和语音质量的感知评价(PESQ)
在这里插入图片描述
结果如表1所示，最好的结果用粗体标出。对于STOI, DBNet在除AECNN外的所有信噪比和噪声下都优于所有基线。然而，AECNN是一个基于大帧大小的模型，因此不适合实时场景。与GCRN相比，babble和自助餐厅的平均质量分别提高了1.20%和1.10%。对于PESQ, GCRN是最好的基线，对babble和cefeteria的平均改善分别为0.12和0.10。对于非因果系统，DBNetNC优于GCRN-NC, STOI平均提高1.7,PESQ平均提高0.27。

六、结论

在本研究中，我们提出了一种新的单通道语音增强系统，该系统由时域和频域两个去噪分支组成。结果表明，该模型在客观可理解性和质量分数方面优于其他先进模型。我们的工作表现优异是因为两个网络分支有不同的学习重点，从不同领域学习的特征可以相互补充。根据STFT的原理，时域的卷积相当于频域的直积。时域的运算更倾向于关注局部信息，而频域的运算更关注帧与帧之间的关系。两者的合理结合可以达到更好的性能。该模型参数较少，表明双支路结构提高了参数利用率。

七、知识小结

音频超分辨率：是指通过算法和技术，将低质量或低分辨率的音频信号恢复到高质量或高分辨率的过程。通过音频超分辨率技术，可以使得音频文件更加真实、逼真，并提供更好的听觉体验。

SRS（Shift Real Spectra）是一种时频表示方法。与传统的STFT相比，SRS在两个方面具有优势。首先，SRS考虑了相位信息。相位在语音信号中承载了重要的语义和听觉信息，因此将相位纳入考虑可以提高语音的可懂度和质量。其次，SRS是在实数域内进行频谱表示的方法，而不是复数域。这意味着SRS的输入是实数而非复数，减少了建模的难度，并且为模型的信息交互模块提供了便利。

门控卷积（Gated Convolution，GCNN）是一种卷积操作的变体，它引入了门控机制来调节卷积的输出。GCNN常用于处理序列数据，如文本和语音。门控卷积具有以下优势：

1.可以学习到输入序列中的长期依赖关系，有利于捕捉上下文信息。
2.门控机制可以选择性地过滤或强调不同位置的特征，提高模型的灵活性和表达能力。
3.相较于传统的卷积操作，门控卷积在处理序列数据中能够更好地保持输入序列的时序性。

“Overlap and add”（重叠相加）是一种数字信号处理中常用的方法，用于将重叠的信号片段进行相加以合成完整的信号。

Adam（Adaptive Moment Estimation）优化器是一种常用的梯度下降优化算法，用于在深度学习模型中更新参数以最小化损失函数。