基于混合模型的语音降噪效果提升

本文探讨了如何改进语音降噪算法的效果,主要涉及两个方面:一是通过使用Montreal-Forced-Aligner(MFA)代替speech-aligner进行更精确的音素对齐,从而提升高斯模型和音素分类网络的准确性;二是采用加噪训练方法,针对NOISEX-92的white噪声对模型进行训练,以改善低SNR条件下的降噪性能。实验结果显示,MFA在高SNR下的降噪效果显著,而加噪训练则有效提升了低SNR下的降噪质量。

上篇文章(基于混合模型的语音降噪实践)实践了基于混合模型的算法来做语音降噪,有了一定的降噪效果。本篇说说怎么样来提升降噪效果。

算法里会算每个音素的高斯模型参数,也会建一个音素分类的神经网络模型。这些都是依赖于音素对齐的,音素对齐做的越好,每个音素的高斯模型越准确,音素分类模型越收敛准确率越高,从而算法的降噪效果越好。先前做音素对齐用的是开源工具speech-aligner,怎么样让音素对齐做的更好呢?自己做不太现实(不仅周期长,而且相关专业知识积累有限),还得依赖专业工具。调研下来MFA(Montreal-Forced-Aligner,也是基于kaldi的)是目前用的最多的音素对齐工具,且有大厂(比如微软)在用,质量有保证,同时它支持中文和自己训练模型。它不仅支持GMM-HMM,还支持DNN-HMM(官网文档这么说),用DNN-HMM的语音识别效果是好于GMM-HMM的,直观上觉得基于DNN-HMM的音素对齐应该是好于基于GMM-HMM的。我用的MFA是最新版本2.0,训练集还是thchs30(数据集一样,方便跟先前的结果比较),经过5步(monophone->triphone->lda->sta1->sat2)训练后得到了模型,基于这个模型得到了每个文件的音素对齐信息。奇怪的是训练过程中没有经过DNN训练这一步,文档中明明说支持的呀,调查后发现2.0已不支持DNN训练,1.1是支持的,网站上的文档没有更新,作者只是在回答问题时确认了,并且给了理由,如下图:

可以看出是作者不确信DNN训练能否提升对齐质量才在新版本里删掉DNN训练的,同时他认为提升对齐的准确率应该来自其他方面。这与直观的理解有出入,我想他们肯定做过很多次实验才有这个结论的,不然不会在新版本里删

评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值