写在前面
本文作者是斯坦福Andrew Ng的博士,比较代表性的工作包括在baidu的Deep speech/Deep speech2、在facebook的wav2letter++等,google scholar引用一万多的大佬,现在在Zoom任职。
文中对于未来十年语音识别技术的发展,从research和application两个角度给出了自己的预测。「个人对文中给出的一些判断非常赞同,不管是学术界选取研究方向或者工业界打磨产品方向,这些方向都有很好的指导作用。」
一、Research方向
1. Semi-supervised Learning
过去三年见证了半监督和自监督技术的迅速发展,尤其是在NLP领域,作者预测2030年这两个技术会在语音识别获得更广泛的应用。
但是现阶段自监督预训练的门槛还比较高,需要的资源比较多,一般在工业界大的实验室(比如Google、Facebook、OpenAI)的进展比较多,而普通的研究机构或者公司一般没有条件去做该方向的探索。
所以文中预测未来可能的一些「研究方向」包括:
-
sparsity for lighter-weight models
-
optimization for faster training
-
effective ways of incorporating prior knowledge for sample efficiency
2.On device
文中预测2030年大部分语音识别系统将会跑在端上。
做出这个判断主要有三点原因:有利于保护用户隐私;端上延时更低;摆脱了对网络的依赖。
该方向的热门「研究方向」:
-
相比模型量化和迁移学习,作者认为model sparsity更有潜力
-
使用Weak supervision在端上训练模型
3. Word Error Rate
作者预测到2030大家不会再使用"improved word error rate on benchmark X with model architecture Y"这种表述。
主要考虑到现有公开数据集的WER已经刷的很低了,而且训练数据和模型越来越大,继续刷榜需要的资源非常大(这点深有感触,现在librispeech的SOTA结果使用大量无监督数据来做自监督预训练,普通人确实玩不起)。
4. Richer Representations
作者预测未来语音识别系统给下游任务的输出将会是更丰富的表征信息,而不再仅仅是一条文本。
因为当语音识别系统优化到一定程度,下游任务有可能会对WER不再敏感,这时候可能需要定义新的指标来衡量识别系统的改进,比如semantic error rate(这点也是深有感触)。这时候识别系统的输出换成lattice等更丰富的信息表征,可能对下游任务帮助更大。
同时作者给出关于这个方向的「研究热点」:
-
可差分的有限状态机,可以将下游任务的loss传递到识别系统。
5. Personalization
作者预测到2030年,语音识别系统具备一定的个性化能力。
作者argue说人在理解语音的时候会结合上下文的能力,比如当前对话的主题、过去说的内容、说话人的习惯等等,这些信息对于理解语音很有帮助。
作者给出的「研究方向」:
-
on-device training以及lighter-weight models
-
模型怎么更方便地结合用户和context信息
二、Application方向
1.Transcription Services
语音转写服务会被ASR取代,转写人员的主要职责将变为控制转写质量以及困难语音的转写。
2.Voice Assistants
到2030年,语音助手会有进步,但是不会有突破性的发展,到时候语音技术已经比较成熟,自然语言理解技术会是限制语音助手发展的瓶颈,而且很难有大的突破。
作者留言:该文章为转载文章,原up未来十年语音识别技术的发展方向,如有侵权,联系删除