自用学习论文之DBNet

DBNet: A Dual-branch Network Architecture Processing on Spectrum and Waveform for Single-channel Speech Enhancement

第一章 语音增强之《DBNet:一种基于频谱和波形的双分支网络架构,用于单通道语音增强》



前言

语音新手入门,学习读懂论文。
本文作者机构是
在这里插入图片描述


一、做了什么

在本文中,提出了一种新的实时框架,称为DBNet,它是一种具有交替互连的双分支结构。每个分支都包含一个具有跳过连接的编码器/解码器架构,并包含跳跃连接。这两个分支分别负责频谱和波形建模。采用桥接层在两个分支之间交换信息。

二、动机

在真实声环境中,提高受背景噪声和混响干扰的语音质量和清晰度是一项艰巨的任务。在过去的几年里,深度学习在语音增强方面显示出了巨大的潜力。

三、挑战

1.现实中噪声类型的多样性

2.窄带式噪声与语音耦合在一起,很难通过基于时域的增强方法解耦。

3.冲击式噪声难以通过基于频域的语音增强方法消除。

四、方法

1.模型图

在这里插入图片描述

2. SRS模块

首先,SRS考虑了相位信息,提高了语音的可懂度和质量。其次,SRS是实数域内的一种频谱表示方法,而不是复数域,输入的所有元素都是实数。因此,它降低了建模的难度,并为我们模型的信息交互模块提供了便利。基于以上两个优点,本文采用了SRS作为我们的频域输入。

3. Gated Convolution and Group LSTM(门控卷积和组GLSTM)

Dauphin等改进了图像卷积建模中的掩模卷积,提出了门控卷积(GCNN),描述为:
在这里插入图片描述
其中,W和b分别表示卷积核和偏置。∗和在这里插入图片描述分别表示卷积操作和逐元素乘法。σ表示非线性激活函数。GCNN可以通过为梯度提供线性路径来减少深度结构的梯度消失问题,因此用它代替了原始crn中的卷积。门控卷积的示意图如图3所示。
在这里插入图片描述
Gao等[11]提出了一种分组递归神经网络(RNN)策略,在保证模型性能的同时降低了模型的复杂性。组RNN的处理过程如图4所示。
在这里插入图片描述
组LSTM包含两层RNN,每层有两个LSTM来学习每一组内的特征。在两层之间,采用帧级重排的方式建立特征的组间关系,在一定程度上保证了组间相关性的利用。

4. 桥接层

桥接层是一个线性单元,负责将信息从一个分支转换到另一个分支。桥接层由两个与帧长度相同的独立向量组成。这两个向量分别负责信息从时域到频域的转换及其逆过程。我们取快速傅里叶变换(FFT)变量的实部作为这些可训练向量的初始化参数,以适应使用SRS作为频域表示的情况。

五、实验评价

1.实验条件

2.损失函数

早期的实验中,使用了基于STFT幅度的损失函数。
在这里插入图片描述
T和F分别表示时间帧数和频率维数,S和S分别表示S和S的stft。Sr和S^i分别表示S的实部和虚部。
网络的输出包含两个增强的话语,一个来自时间分支,另一个来自频率分支,它们是独立优化的。因此,总损失定义为:
在这里插入图片描述
然而,我们发现量级损失引入了大量未知的工件。虽然不影响客观评价分数,但会带来可怕的听觉感受。因此,在DNS Challenge中,将幅度损失替换为相位约束幅度损失(the phase constrained magnitude loss),并在竞赛中取得了较好的主观评价分数。

3.数据集

在本研究中,我们在WSJ0 SI-84数据集[7]上评估了我们提出的模型的性能,该数据集包括来自83位说话者(42位男性和41位女性)的7138个话语。我们使用77位说话者的话语进行训练,其余的用于测试。我们使用了音效库中的10000个非语音声音(可在www.sound-ideas.com上获得)[13],并在{-5dB、-4dB、-3dB、-2dB、-1dB、 -0dB}均匀采样的信噪比下分别生成了320000和3000个语音,用于训练和验证。对于测试集,使用Auditec CD(可在http://www.auditec.com上获得)中的两种噪声(咿呀学语和自助餐厅)来生成300种混合,每种信噪比分别为-5dB, 0dB和5dB。

4.基线

在本研究中,我们将所提出的双分支网络与另外3个基线CRN、GCRN和AECNN进行了比较,结果如下:
CRN:它是一个在T-F域的随机卷积循环网络。该网络使用5个卷积层作为编码器,5个反卷积层作为解码器。
两个LSTM层用于序列建模。这个网络接收幅度作为输入。通道数减少,参数数为4.5M。

GCRN:它是一种用于复杂频谱映射的因果门控卷积循环网络。GCRN的结构与CRN相似,不同之处在于GCRN有两个解码器分别对实数和虚数进行建模。网络的输入是复数谱。我们保留了GCRN中的最佳配置,参数个数为9.76M。

AECNN:它是一个基于自编码器的时域全卷积神经网络。原始波形被分割成具有大时间帧大小(1.024秒)的帧。我们保留了AECNN的最佳配置。参数个数为18M。

DBNet:两个分支结构相同。编码器和解码器分别设置6个(解码)卷积块。每层通道数为64个。时间轴和频率轴分别设置内核大小(1,3)和步幅(1,2)。输入分别为时间支路的时间帧和频率支路的SRS。参数个数为2.9M。

5.评价指标

性能用两个客观指标来评估:短时客观可理解性(STOI)和语音质量的感知评价(PESQ)
在这里插入图片描述
结果如表1所示,最好的结果用粗体标出。对于STOI, DBNet在除AECNN外的所有信噪比和噪声下都优于所有基线。然而,AECNN是一个基于大帧大小的模型,因此不适合实时场景。与GCRN相比,babble和自助餐厅的平均质量分别提高了1.20%和1.10%。对于PESQ, GCRN是最好的基线,对babble和cefeteria的平均改善分别为0.12和0.10。对于非因果系统,DBNetNC优于GCRN-NC, STOI平均提高1.7,PESQ平均提高0.27。


六、结论

在本研究中,我们提出了一种新的单通道语音增强系统,该系统由时域和频域两个去噪分支组成。结果表明,该模型在客观可理解性和质量分数方面优于其他先进模型。我们的工作表现优异是因为两个网络分支有不同的学习重点,从不同领域学习的特征可以相互补充。根据STFT的原理,时域的卷积相当于频域的直积。时域的运算更倾向于关注局部信息,而频域的运算更关注帧与帧之间的关系。两者的合理结合可以达到更好的性能。该模型参数较少,表明双支路结构提高了参数利用率。

七、知识小结

音频超分辨率:是指通过算法和技术,将低质量或低分辨率的音频信号恢复到高质量或高分辨率的过程。通过音频超分辨率技术,可以使得音频文件更加真实、逼真,并提供更好的听觉体验。

SRS(Shift Real Spectra)是一种时频表示方法。与传统的STFT相比,SRS在两个方面具有优势。首先,SRS考虑了相位信息。相位在语音信号中承载了重要的语义和听觉信息,因此将相位纳入考虑可以提高语音的可懂度和质量。其次,SRS是在实数域内进行频谱表示的方法,而不是复数域。这意味着SRS的输入是实数而非复数,减少了建模的难度,并且为模型的信息交互模块提供了便利。

门控卷积(Gated Convolution,GCNN)是一种卷积操作的变体,它引入了门控机制来调节卷积的输出。GCNN常用于处理序列数据,如文本和语音。门控卷积具有以下优势:

1.可以学习到输入序列中的长期依赖关系,有利于捕捉上下文信息。
2.门控机制可以选择性地过滤或强调不同位置的特征,提高模型的灵活性和表达能力。
3.相较于传统的卷积操作,门控卷积在处理序列数据中能够更好地保持输入序列的时序性。

“Overlap and add”(重叠相加)是一种数字信号处理中常用的方法,用于将重叠的信号片段进行相加以合成完整的信号。

Adam(Adaptive Moment Estimation)优化器是一种常用的梯度下降优化算法,用于在深度学习模型中更新参数以最小化损失函数。

<think>好的,我现在需要回答用户关于DBNet OCR模型的介绍及应用的问题。首先,我需要回顾用户提供的引用内容,确保准确引用相关信息。用户提供了四个引用,其中引用[1]提到用户测试过EAST模型效果不好,转而学习DBNet,引用[3]和[4]详细说明了DBNet的核心技术,即可微分二值化(DB),以及其架构和性能。引用[2]介绍了阿里云的OCR产品,可能与DBNet的应用场景相关。 首先,我应该从DBNet的基本介绍开始,解释它解决的问题。传统文本检测模型如EAST在后处理二值化步骤中存在局限性,而DBNet通过引入可微分二值化,将这一步骤融入网络训练,从而提升性能。需要引用引用[3]和[4]来说明这一点。 接下来,DBNet的算法架构部分需要分点说明,比如特征提取、可微分二值化模块、损失函数设计。这里需要确保使用正确的LaTeX格式,如特征金字塔网络(FPN)和双线性插值上采样等术语。 然后,技术优势部分需要突出自适应阈值、简化后处理和高性能,结合引用[4]提到的在MSRA-TD500数据集上的表现,包括F-measure和FPS数据。 应用场景方面,可以结合引用[2]提到的阿里云OCR产品,说明DBNet在文档识别、卡证识别和复杂场景文本检测中的应用。同时,引用[1]提到PaddleOCR和EasyOCR使用DBNet,这也是重要的应用实例。 最后,生成的相关问题需要围绕用户可能感兴趣的方面,比如DBNet与传统模型的区别、优化方法、实际部署效果等,确保问题有针对性。 在回答过程中,要确保所有数学公式如$T$和$B$使用行内格式,独立公式如二值化公式使用$$...$$。同时,检查LaTeX语法是否正确,避免格式错误。引用标识要自然添加在相关内容的末尾,如[^3]和[^4]。 总结来说,回答的结构应清晰,分点阐述DBNet的原理、架构、优势和应用,并正确引用提供的资料。同时,生成的问题需覆盖技术细节、比较、优化和应用场景,帮助用户进一步了解DBNet。</think>### DBNet OCR 模型介绍及应用 #### 1. **模型简介** DBNet(Differentiable Binarization Network)是一种基于语义分割的文本检测模型,核心创新是提出**可微分二值化(DB)**模块,解决了传统二值化后处理对检测效果的依赖问题。传统方法(如固定阈值或手动调整)在复杂场景下鲁棒性差,而DB模块通过让网络自适应学习每个像素的二值化阈值,显著提升了检测精度[^4]。 --- #### 2. **算法架构** DBNet的架构分为三部分: 1. **特征提取**:使用ResNet等主干网络提取多尺度特征,结合特征金字塔网络(FPN)增强特征融合。 2. **可微分二值化模块**:对每个像素预测阈值$T$,通过以下公式生成二值图$B$: $$B_{i,j} = \frac{1}{1 + e^{-k(P_{i,j} - T_{i,j})}}$$ 其中$P_{i,j}$是分割概率图,$k$为放大因子(通常设为50)[^4]。 3. **损失函数**:联合优化分割概率图和阈值图,采用平衡交叉熵和L1损失。 --- #### 3. **技术优势** - **自适应阈值**:动态调整二值化阈值,适应光照不均、模糊等复杂场景。 - **简化后处理**:二值化直接融入训练,无需额外步骤(如EAST中的坐标回归)[^1]。 - **高性能**:在MSRA-TD500数据集上,ResNet-18主干网络实现F-measure 82.8,速度62 FPS[^4]。 --- #### 4. **应用场景** DBNet广泛应用于OCR领域: - **文档识别**:扫描件、PDF等印刷体文本检测[^2]。 - **卡证识别**:身份证、银行卡等关键字段定位[^2]。 - **复杂场景检测**:自然图像中的弯曲文本、密集文本检测(如广告牌、商品标签)。 典型应用案例包括**PaddleOCR**和**EasyOCR**,均将DBNet作为默认文本检测模型。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

budangdiyi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值