Python微信订餐小程序课程视频
https://edu.youkuaiyun.com/course/detail/36074
Python实战量化交易理财系统
https://edu.youkuaiyun.com/course/detail/35475
目录
摘要2 DeepfilterNet2.1 信号模型2.2 Deep Filtering2.3 框架概述2.4 DNN模型2.5 数据处理2.6 损失函数3 实验3.1 训练步骤3.2 结果4 结论
论文地址:DeepFilterNet:基于深度滤波的全频带音频低复杂度语音增强框架
论文代码:https://github.com/ Rikorose/DeepFilterNet
引用:Schröter H, Rosenkranz T, Maier A. DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering[J]. arXiv preprint arXiv:2110.05588, 2021.
摘要
复值处理将基于深度学习的语音增强和信号提取提升到一个新的水平。通常,该过程基于应用于噪声频谱图的时频 (TF) 掩膜,而复数掩模(CM)通常比实值掩模更受青睐,因为它们能够修改相位。最近的工作提出用一个复数的滤波器代替带掩码的逐点乘法。这允许利用每个频带内的局部相关性,合并来自以前和未来时间步长的信息。
在这项工作中,我们提出了DeepFilterNet,一个利用深度过滤的两阶段语音增强框架。首先,我们使用模拟人类频率感知的 ERB 缩放增益来增强频谱包络。第二阶段采用Deep filtering 增强语音的周期性成分。除了利用语音的感知特性之外,我们还通过可分离的卷积和线性和循环层中的广泛分组来强制网络稀疏性,以设计一个低复杂度的架构。
我们进一步表明,我们的两阶段深度过滤方法在各种频率分辨率和延迟上都优于复杂的掩码,并且与其他最先进的模型相比,表现出令人信服的性能。
关键词:复数域
2 DeepfilterNet
2.1 信号模型
设x(k)x(k)x(k)为在嘈杂房间中录制的混合信号。
公式1:x(t)=s(t)∗h(t)+z(t)
公式1:x(t)=s(t)*h(t)+z(t)
式中,s(t)s(t)为纯语音信号,h(t)h(t)为扬声器对麦克风的室内脉冲响应,z(t)z(t)为已包含混响环境的加性噪声信号。通常,降噪是在频域进行的
公式2:X(k,f)=S(k,f)·H(k,f)+Z(k,f)
公式2:X(k,f)=S(k,f)·H(k,f)+Z(k,f)
其中X(k,f)X(k,f)是时域信号x(t)x(t)的STFT结果,tt和ff分别是时间和频率bin。
2.2 Deep Filtering
Deep Filtering被定义为 TF域的 复数滤波器:
公式3:Y(k,f)=N∑i=0C(k,i,f)⋅X(k−i+l,f)
公式3:Y(k, f)=\sum_{i=0}^{N} C(k, i, f) \cdot X(k-i+l, f)
其中CC为应用于输入频谱XX的滤波器阶NN的复数系数,YY为增强频谱。在我们的框架中,深度滤波器应用于增益增强频谱YGY^G。ll是一个可选的lookahead(前瞻),如果l≥1l\geq 1,它允许将非因果抽头合并到线性组合中。此外,还可以在频率轴上进行过滤,允许合并相关性,例如 由于重叠频带。
为了进一步保证深度滤波只影响周期部分,我们引入了一个学习的加权因子α\alpha来生成最终输出频谱。