文章目录

ICASSP 2021
0. 摘要
本文提出了一种用于单通道语音语音增强的Wave-U-Net的低延迟扩展,其利用师生学习来减少系统延迟,同时保持较高的增强性能。考虑到低延迟的需求,本文使用teacher-student学习防止由于输入片段长度减少导致的性能下降,从而使CPU中的系统延迟小于10毫秒。实验结果表明,本文模型可以实时执行,具有低延迟和高性能,可实现约8.73dB的信噪比提升。
1. 简介
已有方法存在的问题:
- 对噪声相位谱的使用问题
- 频域中的有效源分离需要高频率分辨率,通常需要长分析窗口。 这导致实时应用程序中的系统延迟相对较高,因为窗口长度限制了最小延迟。
本文提出使用时域信号作为输入的方法来解决上面的问题,因为这种方法不需要进行STFT,无需考虑STFT一致性和高分辨率的问题。(这个表述应该不太准确,DPRNN方法同样是使用了时域信号,但是在窗长设置为2个samples时才能达到论文中的最佳性能,这应该也是一种提高分辨率的方法。)
本文意在将Wave-U-Net网络模型应用到实时场景中(延迟小于10ms),作者认为,虽然可以通过在Wave-UNet中应用块处理的方式应对网络的全连接卷积网络架构,但是这种方法减少了可用于推理的输入片段的信息,会造成增强效果的降低。为了解决以上问题,本文引入知识蒸馏(teacher-student)方法来训练模型。
2. Wave-U-Net for Speech Enhancement
信号模型定义:
分别表示带噪信号,纯净语音信号和噪声信号,使用Wave-Unet的目标是从带噪语音中获取纯净信号:
损失函数为噪声和纯净信号的MSE(mean square error):
网络架构如图1所示:
包含下采样块(Downsampling, DS)和上采样块(Upsampling, US)。上采样块包含一个上采样层和一个一维卷积层,上采样层采样差值的方式实现。最后一层使用Tanh激活,其余部分使用Leaky ReLU激活函数。
3. Proposed Online Low-latency Model
3.1 Online Wave-U-Net
实现实时处理的一个简单方法是对每个输入片段 m i ( τ ) = m ( i K + τ ) m_i(\tau)=m(iK + \tau) m