46、语音识别中的深度学习技术与应用

躺平摸鱼王

于 2025-11-19 10:14:53 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习重塑语音识别文章标签：深度学习语音识别无监督数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/k8s6orchestrator/article/details/155061575

深度学习重塑语音识别专栏收录该内容

47 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音识别中的深度学习技术与应用

1. 深度学习网络声学挑战与解决方案

在语音识别（SR）产品和服务的部署中，面临着诸多挑战，而深度学习技术为解决这些问题提供了有效的途径。

1.1 有效利用训练数据

使用无监督数据提高识别准确率 ：实时语音服务流量中的未转录数据是无限且免费的，利用这些数据提高声学模型的准确性是一种理想且经济的模型开发策略。关键在于高质量的转录推理、有效的重要数据采样以及对转录错误具有鲁棒性的模型训练。
- 转录推理 ：使用基于多视图学习的系统组合和置信度重新校准来生成准确推断的转录，并拒绝错误的转录，还可利用用户点击和纠正信息进一步提高转录质量。
- 重要数据采样 ：由于未转录数据几乎无限，有效的重要数据采样可优化每个新增数据的准确率提升，并控制模型训练成本。
- 半监督训练 ：由于机器推断的转录并不完美，因此需要开发对转录错误具有鲁棒性的半监督训练方法。研究发现，全连接DNN、展开RNN和LSTM - RNN对标签错误的敏感度逐渐增加。重要性采样对这三种模型的影响相似，与随机采样相比，相对WERR约为2 - 3%。在监督训练下，LSTM - RNN从增加的训练数据量中受益更多。
  |模型|5% WER相对WER增加|10% WER相对WER增加|15% WER相对WER增加|
  | ---- | ---- | ---- | ---- |
  |半监督DNN|2.37%|4.84%|7.46%|

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。