论文翻译：2021_DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_56069948/article/details/122613574

DeepFilterNet是一种基于深度滤波的语音增强框架，旨在实现全频带音频的低复杂度处理。该框架采用两阶段方法，首先使用ERB缩放增益增强频谱，然后利用深度滤波增强周期性成分。通过引入学习的加权因子和复数滤波器，DeepFilterNet在不同频率分辨率和延迟下优于传统的复杂掩模方法，并且表现出与先进模型相当的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python微信订餐小程序课程视频

https://edu.youkuaiyun.com/course/detail/36074

Python实战量化交易理财系统

https://edu.youkuaiyun.com/course/detail/35475

目录

摘要 2 DeepfilterNet 2.1 信号模型 2.2 Deep Filtering 2.3 框架概述 2.4 DNN模型 2.5 数据处理 2.6 损失函数 3 实验 3.1 训练步骤 3.2 结果 4 结论

论文地址：DeepFilterNet：基于深度滤波的全频带音频低复杂度语音增强框架

论文代码：https://github.com/ Rikorose/DeepFilterNet

引用：Schröter H, Rosenkranz T, Maier A. DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering[J]. arXiv preprint arXiv:2110.05588, 2021.

摘要

复值处理将基于深度学习的语音增强和信号提取提升到一个新的水平。通常，该过程基于应用于噪声频谱图的时频 (TF) 掩膜，而复数掩模(CM)通常比实值掩模更受青睐，因为它们能够修改相位。最近的工作提出用一个复数的滤波器代替带掩码的逐点乘法。这允许利用每个频带内的局部相关性，合并来自以前和未来时间步长的信息。

在这项工作中，我们提出了DeepFilterNet，一个利用深度过滤的两阶段语音增强框架。首先，我们使用模拟人类频率感知的 ERB 缩放增益来增强频谱包络。第二阶段采用Deep filtering 增强语音的周期性成分。除了利用语音的感知特性之外，我们还通过可分离的卷积和线性和循环层中的广泛分组来强制网络稀疏性，以设计一个低复杂度的架构。

我们进一步表明，我们的两阶段深度过滤方法在各种频率分辨率和延迟上都优于复杂的掩码，并且与其他最先进的模型相比，表现出令人信服的性能。

关键词：复数域

2 DeepfilterNet

2.1 信号模型

设x(k)x(k)x(k)为在嘈杂房间中录制的混合信号。

公式1：x(t)=s(t)∗h(t)+z(t)

公式1：x(t)=s(t)*h(t)+z(t)
式中，s(t)s(t)为纯语音信号，h(t)h(t)为扬声器对麦克风的室内脉冲响应，z(t)z(t)为已包含混响环境的加性噪声信号。通常，降噪是在频域进行的

公式2：X(k,f)=S(k,f)·H(k,f)+Z(k,f)

公式2：X(k,f)=S(k,f)·H(k,f)+Z(k,f)
其中X(k,f)X(k,f)是时域信号x(t)x(t)的STFT结果，tt和ff分别是时间和频率bin。

2.2 Deep Filtering

Deep Filtering被定义为 TF域的复数滤波器：

公式3：Y(k,f)=N∑i=0C(k,i,f)⋅X(k−i+l,f)

公式3：Y(k, f)=\sum_{i=0}^{N} C(k, i, f) \cdot X(k-i+l, f)
其中CC为应用于输入频谱XX的滤波器阶NN的复数系数，YY为增强频谱。在我们的框架中，深度滤波器应用于增益增强频谱YGY^G。ll是一个可选的lookahead(前瞻)，如果l≥1l\geq 1，它允许将非因果抽头合并到线性组合中。此外，还可以在频率轴上进行过滤，允许合并相关性，例如由于重叠频带。

为了进一步保证深度滤波只影响周期部分，我们引入了一个学习的加权因子α\alpha来生成最终输出频谱。