未来十年语音识别技术的发展方向

转载于 2024-10-24 09:50:12 发布 · 289 阅读

·

3

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s/1beGzbucyYXckcP2rz-90Q

文章标签：

#1024程序员节 #语音识别 #人工智能

写在前面

本文作者是斯坦福Andrew Ng的博士，比较代表性的工作包括在baidu的Deep speech/Deep speech2、在facebook的wav2letter++等，google scholar引用一万多的大佬，现在在Zoom任职。

文中对于未来十年语音识别技术的发展，从research和application两个角度给出了自己的预测。「个人对文中给出的一些判断非常赞同，不管是学术界选取研究方向或者工业界打磨产品方向，这些方向都有很好的指导作用。」

一、Research方向

1. Semi-supervised Learning

过去三年见证了半监督和自监督技术的迅速发展，尤其是在NLP领域，作者预测2030年这两个技术会在语音识别获得更广泛的应用。

但是现阶段自监督预训练的门槛还比较高，需要的资源比较多，一般在工业界大的实验室（比如Google、Facebook、OpenAI）的进展比较多，而普通的研究机构或者公司一般没有条件去做该方向的探索。

所以文中预测未来可能的一些「研究方向」包括：

sparsity for lighter-weight models
optimization for faster training
effective ways of incorporating prior knowledge for sample efficiency

2.On device

文中预测2030年大部分语音识别系统将会跑在端上。

做出这个判断主要有三点原因：有利于保护用户隐私；端上延时更低；摆脱了对网络的依赖。

该方向的热门「研究方向」：

相比模型量化和迁移学习，作者认为model sparsity更有潜力
使用Weak supervision在端上训练模型

3. Word Error Rate

作者预测到2030大家不会再使用"improved word error rate on benchmark X with model architecture Y"这种表述。

主要考虑到现有公开数据集的WER已经刷的很低了，而且训练数据和模型越来越大，继续刷榜需要的资源非常大（这点深有感触，现在librispeech的SOTA结果使用大量无监督数据来做自监督预训练，普通人确实玩不起）。

4. Richer Representations

作者预测未来语音识别系统给下游任务的输出将会是更丰富的表征信息，而不再仅仅是一条文本。

因为当语音识别系统优化到一定程度，下游任务有可能会对WER不再敏感，这时候可能需要定义新的指标来衡量识别系统的改进，比如semantic error rate（这点也是深有感触）。这时候识别系统的输出换成lattice等更丰富的信息表征，可能对下游任务帮助更大。

同时作者给出关于这个方向的「研究热点」：

可差分的有限状态机，可以将下游任务的loss传递到识别系统。

5. Personalization

作者预测到2030年，语音识别系统具备一定的个性化能力。

作者argue说人在理解语音的时候会结合上下文的能力，比如当前对话的主题、过去说的内容、说话人的习惯等等，这些信息对于理解语音很有帮助。

作者给出的「研究方向」：

on-device training以及lighter-weight models
模型怎么更方便地结合用户和context信息

二、Application方向

1.Transcription Services

语音转写服务会被ASR取代，转写人员的主要职责将变为控制转写质量以及困难语音的转写。

2.Voice Assistants

到2030年，语音助手会有进步，但是不会有突破性的发展，到时候语音技术已经比较成熟，自然语言理解技术会是限制语音助手发展的瓶颈，而且很难有大的突破。

作者留言：该文章为转载文章，原up未来十年语音识别技术的发展方向，如有侵权，联系删除

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。