语音论文:用于端到端语音识别的简化完全量化的Transformer模型

论文题目

                     A SIMPLIFIED FULLY QUANTIZED TRANSFORMER FOR END-TO-END SPEECH RECOGNITION

摘要

        讲了近些年来,端到端语音识别性能方面取得了重大改进,但缺点是不适应与边缘设备上的嵌入式使用。在本文中,我们在基于简化和压缩的Transformer模型上进行语音识别,本文通过调查抛弃特定模块的影响来引入更加紧凑的speech-transformer。此外,本文评估了降低我们网络权重和激活的数值精度,同时是否可以保持全精度模型的性能。本文的实验表明,可以通过完全量化为8位固定点精度,减少全精密模型的参数数量,然后通过完全量化为8位固定点精度来进一步压缩模型4倍

引言

       介绍了端到端语音的结构(将声学,字典,语言模型结合在一起)以及发展史(CTC到RNN到Transformer,conformer)。最近,Transformer架构的编码器解码器广泛应用于ASR。Transformer训练在时间上并行,比起循环神经网络RNN更快。这使得它们特别适用于语音识别中遇到的大型音频语料库。此外,Transformer是强大的自回归模型,并且已经实现了合理的ASR,而不会产生与推理期间使用LM的存储和计算开销。

讲出了尽管目前端到端技术已经看到了精度的明显改善,但很难应用到边缘设备。因此,对降低模型尺寸的兴趣增加了才能实现设备上的计算。模型压缩文献探讨了解决问题的许多技术,包括:量化[1],剪枝[2,3],以及知识蒸馏[4,5],在RNN-T[6,7],作者通过一些优化,量化等手段将模型成功部署到边缘设备。

本文贡献在于转换模型架构为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值