论文题目
A SIMPLIFIED FULLY QUANTIZED TRANSFORMER FOR END-TO-END SPEECH RECOGNITION
摘要
讲了近些年来,端到端语音识别性能方面取得了重大改进,但缺点是不适应与边缘设备上的嵌入式使用。在本文中,我们在基于简化和压缩的Transformer模型上进行语音识别,本文通过调查抛弃特定模块的影响来引入更加紧凑的speech-transformer。此外,本文评估了降低我们网络权重和激活的数值精度,同时是否可以保持全精度模型的性能。本文的实验表明,可以通过完全量化为8位固定点精度,减少全精密模型的参数数量,然后通过完全量化为8位固定点精度来进一步压缩模型4倍
引言
介绍了端到端语音的结构(将声学,字典,语言模型结合在一起)以及发展史(CTC到RNN到Transformer,conformer)。最近,Transformer架构的编码器解码器广泛应用于ASR。Transformer训练在时间上并行,比起循环神经网络RNN更快。这使得它们特别适用于语音识别中遇到的大型音频语料库。此外,Transformer是强大的自回归模型,并且已经实现了合理的ASR,而不会产生与推理期间使用LM的存储和计算开销。
讲出了尽管目前端到端技术已经看到了精度的明显改善,但很难应用到边缘设备。因此,对降低模型尺寸的兴趣增加了才能实现设备上的计算。模型压缩文献探讨了解决问题的许多技术,包括:量化[1],剪枝[2,3],以及知识蒸馏[4,5],在RNN-T[6,7],作者通过一些优化,量化等手段将模型成功部署到边缘设备。
本文贡献在于转换模型架构为