李锦辉教授是佐治亚理工的终身教授,研究方向主要是DL,其中包含基于DL的噪声消除,在这一领域被看作是经典之一,目前在行业里也有人推荐李教授的这一方法,看起来值得一试。
这篇paper主要是提出了基于DNN网络的噪声消除的framework,并且给出了测试结果,当然,从测试结果看,该方法还是优于现有的其它方法的。
图1:基于DNN的消噪算法框架
该算法主要包括训练阶段和增强(消噪)阶段两部分。其中训练阶段又分为两部分,第一个是预训练,第二个是基于MMSE的精细调整。(1)预训练模块的输出是一系列的RBMs(受限玻尔兹曼机),如图2所示,首先输入送给一个高斯-伯努力RBM,然后输出给一系列伯努力-伯努力RBM。
图2:(左)预训练使用的两种RBMs (右)精细调整阶段
(2)基于MMSE的精细调整
使用MMSE后向传播算法训练DNN,见图2的右侧部分,并且使用了块级(mini-batch)的随机梯度下降算法,见下式。
其中 表示第n次RBM的输出第d个log域的fft系数,
表示目标信号。所谓的mini-batch是指可以N帧同时训练。
表示第l层训练出的权系数和bias,其训练(更新)算法为:
客观测试结果:
主观测试结果:
虽然测试数据看起来这个方法相比于传统的增强算法改进明显,但是并没有对音乐场景处理的效果进行测试,对于IM应用场景来说,用户是否给对端播放音乐、是否有背景音乐将给消噪这一任务引入巨大的挑战。如果需要保证音乐场景下的消噪效果,很多传统的算法可能都无法满足实际应用的需求。