语音识别两条路:
传统方法:GMM+HMM,DNN+HMM,kaldi工具实现
神经网络:CTC(Connectionist Temporal Classification)框架(deepspeech2, 科大讯飞DFCNN),注意力机制的 seq2seq 框架(谷歌的LAS)
俞栋所说:“只有当新模型比旧模型好很多的时候,替换才会发生。当然,这里的好是多方面的,不单单是识别率好,也可能是在其他指标不变的情况下你的运算量小了,或者是解码速度提升了。”
CTC 的好处是可以采用更大的建模单元,坏处是存在一个随机延迟的问题,即结果出来的时间不是预先可知的。随机延迟的后果是断句困难,这会给用户造成一种「你怎么比别人慢」的感觉。
语音助手类,大部分仍然在使用混合系统。而对实时性没有要求的产品,比如 YouTube 的字幕生成器,因为可以离线,所以有延时也没有关系。
语音研究方向:
前端:主要围绕在家居和车载环境所必须的麦克风阵列、降噪、去回声、去混响、唤醒等功能
声学模型:主要关注如何将声学信号建模
语言模型:语言文字本身建模
CTC:
注意力机制:
本文探讨了语音识别领域的两大技术路径:传统方法GMM+HMM与DNN+HMM,以及基于神经网络的CTC和注意力机制的seq2seq框架。分析了新旧模型替换的考量因素,CTC的优势与随机延迟问题,以及语音助手类产品仍偏爱混合系统的原因。同时,介绍了语音研究的主要方向,包括前端处理、声学模型和语言模型。

被折叠的 条评论
为什么被折叠?



