Dynamic noise embedding: Noise aware training and adaptation for speech enhancement

最新推荐文章于 2024-09-03 08:41:35 发布

原创

最新推荐文章于 2024-09-03 08:41:35 发布 · 528 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#语音增强 #深度学习

文章目录

0. 摘要
1. 简介
2. Proposed method
- 2.1 Estimating confident noise frames
- 2.2 Dynamic Noise Embedding
3. Speech Enhancement Module
4. Voice Activity Detection Module
5. 实验步骤
6. 结果分析

0. 摘要

准确的估计噪声信息对于语音应用中的噪声感知训练至关重要。为了估计仅有噪声的帧，本文应用voice activity detection(VAD)，通过对语音后验应用最佳阈值来检测非语音帧。这些帧用于提取噪声embedding，命名为动态噪声嵌入(dynamic noise embedding，DNE)，这对于SE模块捕获背景噪声的特性非常重要。我们使用一个单独的神经网络提取DNE，SE模块和DNE可以联合训练。本文实验部分使用TIMIT数据集，使用U-Net作为SE模块的骨干网络。实验结果表明，DNE在SE模块中发挥重要作用，即使噪声信号是非平稳的，且是训练集中未曾出现的噪声信号，SE网络也能很好的提升语音信号的质量和可理解性。

1. 简介

本文提出了一种基于深度学习的方法处理单通道降噪任务，该方法同事使用VAD和SE模块。在模型中，首先使用VAD估计噪声信息，然后在SE模块中进行噪声感知训练。在带噪语音信号中，非语音帧仅仅包含噪声成分，VAD方法用于判别这些信号。这些非语音帧可用于提供有关噪声特征的信息，通过将它们与语音后验一起使用，简单的神经网络提取噪声自适应嵌入，这称为动态噪声嵌入 (DNE)。 DNE 附加到 SE 模块的输入声学特征中，以提高在嘈杂环境中的鲁棒性。

在本文提出的模型中，VAD和SE进行联合训练优化，因此不需要对VAD和SE模块进行单独的预训练。

2. Proposed method

带噪信号的时频域表示为：
在这里插入图片描述
简化为幅度表示：

针对每一帧的情况，可以细分为带噪帧和仅有噪声的帧：

2.1 Estimating confident noise frames

在之前的工作[6, 26, 27]中，噪声估计方法：对语音的开始到结束取平均计算。这种方法简单，但难以表示非平稳噪声的趋势。此外，这些帧不能保证它们总是只有噪声的帧。

从（3）中可以看出，非语音帧可以帮助表示噪声信息。因此，本文使用基于LSTM的VAD方法对非语音帧进行准确估计。
为了检测非语音帧，我们首先获得语音后验，它是 VAD 的输出。来自 VAD 模块的语音后验的数学表达式可以表示如下：
在这里插入图片描述
其中 $p_t$ 表示第t帧的语音后验，T表示语音的总帧数。函数g()将带噪语音信号转换为VAD的输入特征，例如梅尔频谱倒谱系数MFCCs或者梅尔滤波器