上篇文章(基于混合模型的语音降噪实践)实践了基于混合模型的算法来做语音降噪,有了一定的降噪效果。本篇说说怎么样来提升降噪效果。
算法里会算每个音素的高斯模型参数,也会建一个音素分类的神经网络模型。这些都是依赖于音素对齐的,音素对齐做的越好,每个音素的高斯模型越准确,音素分类模型越收敛准确率越高,从而算法的降噪效果越好。先前做音素对齐用的是开源工具speech-aligner,怎么样让音素对齐做的更好呢?自己做不太现实(不仅周期长,而且相关专业知识积累有限),还得依赖专业工具。调研下来MFA(Montreal-Forced-Aligner,也是基于kaldi的)是目前用的最多的音素对齐工具,且有大厂(比如微软)在用,质量有保证,同时它支持中文和自己训练模型。它不仅支持GMM-HMM,还支持DNN-HMM(官网文档这么说),用DNN-HMM的语音识别效果是好于GMM-HMM的,直观上觉得基于DNN-HMM的音素对齐应该是好于基于GMM-HMM的。我用的MFA是最新版本2.0,训练集还是thchs30(数据集一样,方便跟先前的结果比较),经过5步(monophone->triphone->lda->sta1->sat2)训练后得到了模型,基于这个模型得到了每个文件的音素对齐信息。奇怪的是训练过程中没有经过DNN训练这一步,文档中明明说支持的呀,调查后发现2.0已不支持DNN训练,1.1是支持的,网站上的文档没有更新,作者只是在回答问题时确认了,并且给了理由,如下图:

可以看出是作者不确信DNN训练能否提升对齐质量才在新版本里删掉DNN训练的,同时他认为提升对齐的准确率应该来自其他方面。这与直观的理解有出入,我想他们肯定做过很多次实验才有这个结论的,不然不会在新版本里删

本文探讨了如何改进语音降噪算法的效果,主要涉及两个方面:一是通过使用Montreal-Forced-Aligner(MFA)代替speech-aligner进行更精确的音素对齐,从而提升高斯模型和音素分类网络的准确性;二是采用加噪训练方法,针对NOISEX-92的white噪声对模型进行训练,以改善低SNR条件下的降噪性能。实验结果显示,MFA在高SNR下的降噪效果显著,而加噪训练则有效提升了低SNR下的降噪质量。
最低0.47元/天 解锁文章
637

被折叠的 条评论
为什么被折叠?



