语音降噪论文“A Hybrid Approach for Speech Enhancement ...“的研读

最新推荐文章于 2023-03-21 14:19:00 发布

原创

最新推荐文章于 2023-03-21 14:19:00 发布 · 1.3k 阅读

4 ·

CC 4.0 BY-SA版权

该文介绍了使用混合模型（MoG）和神经网络（NN）进行语音增强的方法，旨在降低加性噪声。文章基于MixMAX模型，利用高斯模型表示干净语音和噪声，并通过NN模型提高音素分类的准确性，从而更精确地估计干净语音的对数谱。在训练阶段，使用标注好的语料库构建干净语音的高斯模型和NN分类模型；在推理阶段，输入带噪语音的对数谱和MFCC特征，输出消噪后的语音。该方法通过NN模型改进了音素概率计算，提高了降噪效果。

最近认真的研读了一篇关于语音降噪的论文（A Hybrid Approach for Speech Enhancement Using MoG Model and Neural Network Phoneme Classifier）。它是一种利用混合模型降噪的方法，即既利用了生成模型（MoG高斯模型），也利用了判别模型（神经网络NN模型）。本文根据自己的理解对原理做了梳理。

论文是基于“Speech Enhancement Using a Mixture-Maximum Model”提出的MixMAX模型的。假设噪声是加性噪声，干净语音为x(t)，噪声为y(t)，则在时域带噪语音z(t)可以表示为z(t) = x(t) + y(t)。对z(t)做短时傅里叶变换(STFT)得到Z(k)，再取对数谱（log-spectral）可得到Zk(k表示对数谱的第k维，即对数谱的第k个频段（frequency bin）。若做STFT的样本有L个，则对数谱的维数是 L/2 + 1)。相应的可得到Xk和Yk。MixMAX模型是指加噪后语音的每个频段上的值Zk是对应的Xk和Yk中的大值，即 = MAX(Xk, Yk)。

语音x由音素组成，设定一个音素可用一个高斯表示。假设音素有m个，则干净语音的密度函数f(x)可以表示成下式：