语音识别中的深度学习技术与应用
1. 深度学习网络声学挑战与解决方案
在语音识别(SR)产品和服务的部署中,面临着诸多挑战,而深度学习技术为解决这些问题提供了有效的途径。
1.1 有效利用训练数据
- 使用无监督数据提高识别准确率 :实时语音服务流量中的未转录数据是无限且免费的,利用这些数据提高声学模型的准确性是一种理想且经济的模型开发策略。关键在于高质量的转录推理、有效的重要数据采样以及对转录错误具有鲁棒性的模型训练。
- 转录推理 :使用基于多视图学习的系统组合和置信度重新校准来生成准确推断的转录,并拒绝错误的转录,还可利用用户点击和纠正信息进一步提高转录质量。
- 重要数据采样 :由于未转录数据几乎无限,有效的重要数据采样可优化每个新增数据的准确率提升,并控制模型训练成本。
- 半监督训练 :由于机器推断的转录并不完美,因此需要开发对转录错误具有鲁棒性的半监督训练方法。研究发现,全连接DNN、展开RNN和LSTM - RNN对标签错误的敏感度逐渐增加。重要性采样对这三种模型的影响相似,与随机采样相比,相对WERR约为2 - 3%。在监督训练下,LSTM - RNN从增加的训练数据量中受益更多。
|模型|5% WER相对WER增加|10% WER相对WER增加|15% WER相对WER增加|
| ---- | ---- | ---- | ---- |
|半监督DNN|2.37%|4.84%|7.46%|
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



