(ICASSP 19)Streaming End-to-end Speech Recognition for Mobile Devices

介绍了基于RNN-T模型的流式端到端语音识别系统,实现实时解码和高精度,适用于移动设备。系统克服了长尾识别、上下文利用及数字序列归一化等挑战。

会议:ICASSP 2019
论文:Streaming End-to-end Speech Recognition for Mobile Devices
作者:Yanzhang He, Tara N. Sainath, Rohit Prabhavalkar, Ian McGraw, Raziel Alvarez, Ding Zhao, David Rybach, Anjuli Kannan, Yonghui Wu, Ruoming Pang, Qiao Liang, Deepti Bhatia, Yuan Shangguan, Bo Li, Golan Pundak, Khe Chai Sim, Tom Bagby, Shuo-Yiin Chang, Kanishka Rao, Alexander Gruenstein

ABSTRACT

端到端(E2E)模型直接预测给定输入语音的输出字符序列,是设备语音识别的良好候选模型。然而,E2E模型提出了许多挑战:为了真正有用,这些模型必须实时地以流式方式解码语音;它们必须对用例的长尾具有健壮性;它们必须能够利用用户特定的上下文(例如,联系人列表);最重要的是,它们必须非常精确。在这项工作中,我们描述了我们的努力,建立一个E2E语音记录器使用递归神经网络传感器。在实验评估中,我们发现在许多评估类别中,所提出的方法在延迟和准确性方面都优于传统的基于CTC的模型

CONCLUSIONS

我们提出了一种基于RNN-T模型的紧凑型E2E语音识别器的设计,它在Google像素手机上的运行速度是实时的两倍,在语音搜索和听写任务上比强大的嵌入式基线系统提高了20%以上的功耗。这是通过对RNN-T模型体系结构的一系列修改、量化推理和使用TTS为E2E模型合成训练数据来实现的。该系统具有流媒体、高精度、低延迟、上下文语音识别等特点,非常适合在设备上应用。

INTRODUCTION

在过去的十年中,深度神经网络的研究推动了自动语音识别(ASR)技术的巨大进步[1]。伴随着智能手机,平板电脑和其他消费类设备的迅猛发展和采用,这些改进已导致语音成为与此类设备进行交互的主要方式之一[2],[3]。在移动设备上识别语音的主要范例是将音频从设备流式传输到服务器,而将解码结果流式传输回用户。将这种基于服务器的系统替换为可以完全在设备上运行的系统从可靠性,延迟和隐私角度来看,它具有重要意义,并已成为研究的活跃领域。突出的示例包括唤醒词检测(即,识别特定的单词或短语)[4],[5],[6],[7],以及大词汇量连续语音识别(LVCSR)[8],[9]。

先前在设备上构建LVCSR系统的尝试通常包括缩小整个系统的传统组件(声学(AM),发音(PM)和语言(LM)模型)以满足计算和内存限制。虽然这可以实现语音命令和听写等狭窄域的准确性奇偶校验[9],但与诸如语音搜索之类的具有挑战性的任务的大型基于服务器的系统相比,性能明显较差。

与以前的方法相反,我们将重点放在基于端到端(E2E)模型[10],[11],[12],[13],[14]的最新进展来构建流系统。这种模型用一个直接预测字符序列的端到端训练有素的全神经模型代替了ASR系统的传统组件,从而大大简化了训练和推理。因此,端到端模型对于设备上的应用极为有吸引力。

早期的E2E工作使用字素或单词目标[16],[17],[18]和[19]来检查连接主义的时间分类(CTC)[15 ]。最近的工作表明,使用递归神经网络换能器(RNN-T)模型[12],[20],[21]或基于注意力的编解码器模型[10],[13]可以进一步提高性能。,[14],[22]。当在足够大量的声学训练数据上进行训练(10,000+小时)时,E2E模型的性能将优于传统的混合RNN-HMM系统[21],[

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值