基于深度学习的语音识别中的鲁棒特征
1. 不同特征的WER表现
在语音识别中,不同的特征对于识别结果的影响显著。以下是使用WDAS波束形成信号训练的DNN声学模型,在CHiME - 3真实评估数据上,采用基线和抗噪特征得到的词错误率(WER):
| 特征 | 真实测试WER(%) |
| ---- | ---- |
| MFB | 20.17 |
| DOC | 18.53 |
| MMeDuSA | 18.27 |
| DOC + fMLLR | 15.28 |
| MMeDuSA + fMLLR | 14.96 |
从表格中可以看出,结合了fMLLR的特征(DOC + fMLLR和MMeDuSA + fMLLR)表现出更低的词错误率,说明fMLLR在提升语音识别准确率方面有积极作用。
2. 鲁棒特征的作用
2.1 应对训练 - 测试条件不匹配
在语音识别评估中,DNN模型在训练和测试条件匹配时能产生最先进的结果,但当测试条件与训练条件严重不匹配时,其性能容易下降。鲁棒特征的使用有助于在不同深度学习架构下,改善声学模型在训练 - 测试条件不匹配情况下的性能。
传统方法如数据增强和自适应在数据不匹配的情况下非常有用,能让模型处理未见过的数据条件。鲁棒特征通常旨在创建语音的不变表示,使数据扰动对其特征空间的影响最小化,从而为声学模型提供可靠的特征表示。而且,在数据增强和自适应步骤之上使用鲁棒特征是有益的。
2.2 受人类听觉处理启发
人类听觉处理是多个非线性过程的复杂交互,如听觉注意力、时间滤波、掩蔽等
超级会员免费看
订阅专栏 解锁全文
999

被折叠的 条评论
为什么被折叠?



