MODEL COMPRESSION VIA DISTILLATION AND QUANTIZATION
Abstract

深度神经网络(DNN)继续取得重大进展,解决从图像分类到翻译或强化学习的任务。该领域备受关注的一个方面是在资源受限的环境(如移动或嵌入式设备)中高效地执行深度模型。本文针对这个问题,提出了两种新的压缩方法=,这两种方法联合利用权重量化和将称为“教师”的较大网络提取为压缩的“学生”网络。
1、我们提出的第一种方法被称为量化蒸馏,通过将蒸馏损失(表示为教师网络)纳入较小学生网络的训练中,在训练过程中利用蒸馏,该学生网络的权重被量化到一组有限的水平。
2、第二种方法是可微量化,通过随机梯度下降优化量化点的位置,以更好地适应教师模型的行为。我们通过卷积结构和递归结构的实验验证了这两种方法。我们表明,量化的浅层学生可以达到与最先进的全精度教师模型相似的精度水平,同时提供高达数量级的压缩,以及在深度缩减中几乎呈线性的推理加速。总之,我们的研究结果使资源受限环境中的DNN能够利用在更强大的设备上开发的体系结构和准确性进步。
1 INTRODUCTION
1.1 Background.
本文提出结合蒸馏和量化的方法来压缩深度神经网络,量化蒸馏在训练过程中利用教师网络的蒸馏损失,而可微量化通过优化量化点的位置以适应教师模型。实验证明,量化后的浅层学生模型在保持高精度的同时,实现了对全精度模型的显著压缩和推理速度的提升。
订阅专栏 解锁全文
1341

被折叠的 条评论
为什么被折叠?



