Teacher-Student Learning For Low-latency Online Speech Enhancement Using Wave-U-Net


在这里插入图片描述

ICASSP 2021

0. 摘要

本文提出了一种用于单通道语音语音增强的Wave-U-Net的低延迟扩展,其利用师生学习来减少系统延迟,同时保持较高的增强性能。考虑到低延迟的需求,本文使用teacher-student学习防止由于输入片段长度减少导致的性能下降,从而使CPU中的系统延迟小于10毫秒。实验结果表明,本文模型可以实时执行,具有低延迟和高性能,可实现约8.73dB的信噪比提升。

1. 简介

已有方法存在的问题:

  • 对噪声相位谱的使用问题
  • 频域中的有效源分离需要高频率分辨率,通常需要长分析窗口。 这导致实时应用程序中的系统延迟相对较高,因为窗口长度限制了最小延迟。

本文提出使用时域信号作为输入的方法来解决上面的问题,因为这种方法不需要进行STFT,无需考虑STFT一致性和高分辨率的问题。(这个表述应该不太准确,DPRNN方法同样是使用了时域信号,但是在窗长设置为2个samples时才能达到论文中的最佳性能,这应该也是一种提高分辨率的方法。)
本文意在将Wave-U-Net网络模型应用到实时场景中(延迟小于10ms),作者认为,虽然可以通过在Wave-UNet中应用块处理的方式应对网络的全连接卷积网络架构,但是这种方法减少了可用于推理的输入片段的信息,会造成增强效果的降低。为了解决以上问题,本文引入知识蒸馏(teacher-student)方法来训练模型。

2. Wave-U-Net for Speech Enhancement

信号模型定义:
在这里插入图片描述
分别表示带噪信号,纯净语音信号和噪声信号,使用Wave-Unet的目标是从带噪语音中获取纯净信号:
在这里插入图片描述
损失函数为噪声和纯净信号的MSE(mean square error):
在这里插入图片描述
网络架构如图1所示:
在这里插入图片描述
包含下采样块(Downsampling, DS)和上采样块(Upsampling, US)。上采样块包含一个上采样层和一个一维卷积层,上采样层采样差值的方式实现。最后一层使用Tanh激活,其余部分使用Leaky ReLU激活函数。

3. Proposed Online Low-latency Model

3.1 Online Wave-U-Net

实现实时处理的一个简单方法是对每个输入片段 m i ( τ ) = m ( i K + τ ) m_i(\tau)=m(iK + \tau) m

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Aidanmomo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值