Dynamic noise embedding: Noise aware training and adaptation for speech enhancement


在这里插入图片描述

0. 摘要

准确的估计噪声信息对于语音应用中的噪声感知训练至关重要。为了估计仅有噪声的帧,本文应用voice activity detection(VAD),通过对语音后验应用最佳阈值来检测非语音帧。这些帧用于提取噪声embedding,命名为动态噪声嵌入(dynamic noise embedding,DNE),这对于SE模块捕获背景噪声的特性非常重要。我们使用一个单独的神经网络提取DNE,SE模块和DNE可以联合训练。本文实验部分使用TIMIT数据集,使用U-Net作为SE模块的骨干网络。实验结果表明,DNE在SE模块中发挥重要作用,即使噪声信号是非平稳的,且是训练集中未曾出现的噪声信号,SE网络也能很好的提升语音信号的质量和可理解性。

1. 简介

本文提出了一种基于深度学习的方法处理单通道降噪任务,该方法同事使用VAD和SE模块。在模型中,首先使用VAD估计噪声信息,然后在SE模块中进行噪声感知训练。在带噪语音信号中,非语音帧仅仅包含噪声成分,VAD方法用于判别这些信号。这些非语音帧可用于提供有关噪声特征的信息,通过将它们与语音后验一起使用,简单的神经网络提取噪声自适应嵌入,这称为动态噪声嵌入 (DNE)。 DNE 附加到 SE 模块的输入声学特征中,以提高在嘈杂环境中的鲁棒性。

在本文提出的模型中,VAD和SE进行联合训练优化,因此不需要对VAD和SE模块进行单独的预训练。

2. Proposed method

带噪信号的时频域表示为:
在这里插入图片描述
简化为幅度表示:
在这里插入图片描述
针对每一帧的情况,可以细分为带噪帧和仅有噪声的帧:
在这里插入图片描述

2.1 Estimating confident noise frames

在之前的工作[6, 26, 27]中,噪声估计方法:对语音的开始到结束取平均计算。这种方法简单,但难以表示非平稳噪声的趋势。 此外,这些帧不能保证它们总是只有噪声的帧。

从(3)中可以看出,非语音帧可以帮助表示噪声信息。因此,本文使用基于LSTM的VAD方法对非语音帧进行准确估计。
为了检测非语音帧,我们首先获得语音后验,它是 VAD 的输出。 来自 VAD 模块的语音后验的数学表达式可以表示如下:
在这里插入图片描述
其中 p t p_t pt表示第t帧的语音后验,T表示语音的总帧数。函数g()将带噪语音信号转换为VAD的输入特征,例如梅尔频谱倒谱系数MFCCs或者梅尔滤波器

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Aidanmomo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值