基于混合模型的语音降噪效果提升

最新推荐文章于 2024-12-18 15:52:07 发布

原创

最新推荐文章于 2024-12-18 15:52:07 发布 · 698 阅读

2 ·

CC 4.0 BY-SA版权

本文探讨了如何改进语音降噪算法的效果，主要涉及两个方面：一是通过使用Montreal-Forced-Aligner（MFA）代替speech-aligner进行更精确的音素对齐，从而提升高斯模型和音素分类网络的准确性；二是采用加噪训练方法，针对NOISEX-92的white噪声对模型进行训练，以改善低SNR条件下的降噪性能。实验结果显示，MFA在高SNR下的降噪效果显著，而加噪训练则有效提升了低SNR下的降噪质量。

上篇文章（基于混合模型的语音降噪实践）实践了基于混合模型的算法来做语音降噪，有了一定的降噪效果。本篇说说怎么样来提升降噪效果。

算法里会算每个音素的高斯模型参数，也会建一个音素分类的神经网络模型。这些都是依赖于音素对齐的，音素对齐做的越好，每个音素的高斯模型越准确，音素分类模型越收敛准确率越高，从而算法的降噪效果越好。先前做音素对齐用的是开源工具speech-aligner，怎么样让音素对齐做的更好呢？自己做不太现实（不仅周期长，而且相关专业知识积累有限），还得依赖专业工具。调研下来MFA(Montreal-Forced-Aligner，也是基于kaldi的)是目前用的最多的音素对齐工具，且有大厂（比如微软）在用，质量有保证，同时它支持中文和自己训练模型。它不仅支持GMM-HMM，还支持DNN-HMM（官网文档这么说），用DNN-HMM的语音识别效果是好于GMM-HMM的，直观上觉得基于DNN-HMM的音素对齐应该是好于基于GMM-HMM的。我用的MFA是最新版本2.0，训练集还是thchs30（数据集一样，方便跟先前的结果比较），经过5步（monophone->triphone->lda->sta1->sat2）训练后得到了模型，基于这个模型得到了每个文件的音素对齐信息。奇怪的是训练过程中没有经过DNN训练这一步，文档中明明说支持的呀，调查后发现2.0已不支持DNN训练，1.1是支持的，网站上的文档没有更新，作者只是在回答问题时确认了，并且给了理由，如下图：