Teacher-Student Learning For Low-latency Online Speech Enhancement Using Wave-U-Net

最新推荐文章于 2024-08-31 08:59:21 发布

原创

最新推荐文章于 2024-08-31 08:59:21 发布 · 2.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #语音增强

文章目录

ICASSP 2021
0. 摘要
1. 简介
2. Wave-U-Net for Speech Enhancement
3. Proposed Online Low-latency Model
- 3.1 Online Wave-U-Net
- 3.2 Teacher-Student Learning for Knowledge Transfer
4. 实验阶段

ICASSP 2021

0. 摘要

本文提出了一种用于单通道语音语音增强的Wave-U-Net的低延迟扩展，其利用师生学习来减少系统延迟，同时保持较高的增强性能。考虑到低延迟的需求，本文使用teacher-student学习防止由于输入片段长度减少导致的性能下降，从而使CPU中的系统延迟小于10毫秒。实验结果表明，本文模型可以实时执行，具有低延迟和高性能，可实现约8.73dB的信噪比提升。

1. 简介

已有方法存在的问题：

对噪声相位谱的使用问题
频域中的有效源分离需要高频率分辨率，通常需要长分析窗口。这导致实时应用程序中的系统延迟相对较高，因为窗口长度限制了最小延迟。

本文提出使用时域信号作为输入的方法来解决上面的问题，因为这种方法不需要进行STFT，无需考虑STFT一致性和高分辨率的问题。（这个表述应该不太准确，DPRNN方法同样是使用了时域信号，但是在窗长设置为2个samples时才能达到论文中的最佳性能，这应该也是一种提高分辨率的方法。）
本文意在将Wave-U-Net网络模型应用到实时场景中(延迟小于10ms)，作者认为，虽然可以通过在Wave-UNet中应用块处理的方式应对网络的全连接卷积网络架构，但是这种方法减少了可用于推理的输入片段的信息，会造成增强效果的降低。为了解决以上问题，本文引入知识蒸馏（teacher-student）方法来训练模型。

2. Wave-U-Net for Speech Enhancement

信号模型定义：
在这里插入图片描述
分别表示带噪信号，纯净语音信号和噪声信号，使用Wave-Unet的目标是从带噪语音中获取纯净信号：

损失函数为噪声和纯净信号的MSE(mean square error):

网络架构如图1所示：

包含下采样块(Downsampling, DS)和上采样块(Upsampling, US)。上采样块包含一个上采样层和一个一维卷积层，上采样层采样差值的方式实现。最后一层使用Tanh激活，其余部分使用Leaky ReLU激活函数。