本文是蒸馏学习综述系列的第一篇文章,主要是针对2021年 IJCV Knowledge Distillation: A Survey的一个翻译。
知识蒸馏:综述
摘要
近年来,深度神经网络在工业界和学术界都取得了成功,尤其是在计算机视觉任务方面。深度学习的巨大成功主要归功于其对大规模数据进行编码和操纵数十亿模型参数的可扩展性。然而,在资源有限的设备(例如移动电话和嵌入式设备)上部署这些繁琐的深度模型是一个挑战,这不仅是因为计算复杂度高,而且还因为存储需求大。为此,已经开发了各种模型压缩和加速技术。知识蒸馏作为一种具有代表性的模型压缩和加速,可以有效地从大型教师模型中学习小型学生模型。它迅速受到社会越来越多的关注。本文从知识类别、训练方案、师生架构、提取算法、性能比较和应用等方面对知识提取进行了全面的综述。此外,还简要回顾了知识蒸馏方面的挑战,并对未来的研究进行了讨论和展望。
1 引言
在过去几年中,深度学习是人工智能许多成功的基础,包括计算机视觉、强化学习和自然语言处理中的各种应用。在许多最新技术的帮助下,包括残差连接和批归一化,可以很容易地在强大的GPU或TPU集群上训练具有数千层的非常深入的模型。例如,在具有数百万张图像的流行图像识别基准上训练ResNet模型不到十分钟;为语言理解训练一个强大的BERT模型不需要超过一个半小时。大规模深度模型已经取得了压倒性的成功