24、基于深度学习的语音识别中的鲁棒特征

基于深度学习的语音识别中的鲁棒特征

1. 不同特征的WER表现

在语音识别中,不同的特征对于识别结果的影响显著。以下是使用WDAS波束形成信号训练的DNN声学模型,在CHiME - 3真实评估数据上,采用基线和抗噪特征得到的词错误率(WER):
| 特征 | 真实测试WER(%) |
| ---- | ---- |
| MFB | 20.17 |
| DOC | 18.53 |
| MMeDuSA | 18.27 |
| DOC + fMLLR | 15.28 |
| MMeDuSA + fMLLR | 14.96 |

从表格中可以看出,结合了fMLLR的特征(DOC + fMLLR和MMeDuSA + fMLLR)表现出更低的词错误率,说明fMLLR在提升语音识别准确率方面有积极作用。

2. 鲁棒特征的作用

2.1 应对训练 - 测试条件不匹配

在语音识别评估中,DNN模型在训练和测试条件匹配时能产生最先进的结果,但当测试条件与训练条件严重不匹配时,其性能容易下降。鲁棒特征的使用有助于在不同深度学习架构下,改善声学模型在训练 - 测试条件不匹配情况下的性能。

传统方法如数据增强和自适应在数据不匹配的情况下非常有用,能让模型处理未见过的数据条件。鲁棒特征通常旨在创建语音的不变表示,使数据扰动对其特征空间的影响最小化,从而为声学模型提供可靠的特征表示。而且,在数据增强和自适应步骤之上使用鲁棒特征是有益的。

2.2 受人类听觉处理启发

人类听觉处理是多个非线性过程的复杂交互,如听觉注意力、时间滤波、掩蔽等

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值