【知识蒸馏】 Knowledge Distillation from A Stronger Teacher

原创

已于 2023-03-07 21:47:18 修改 · 2.4k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #算法

于 2023-02-28 20:41:54 首次发布

文章介绍了一种名为DIST的知识蒸馏算法，该算法解决了在使用更大、训练策略更先进的教师模型时，学生模型性能提升不明显的问题。DIST通过使用Pearson距离替代KL散度进行松弛匹配，同时考虑了类间和类内关系，提高了知识蒸馏的效率和效果。实验结果显示，DIST在目标检测等任务中表现出色，优于传统知识蒸馏方法。

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

一、摘要
二、动机
三、知识蒸馏创新点
- 3.1 DIST: teacher与student的松弛匹配
- 3.2 结合类间关系与类内关系的KD loss
四、实验
- 4.1 目标检测
- 4.2 消融实验
总结

一、摘要

近年来，视觉模型的精度凭借更高级的训练策略和模型结构取得了大幅度的提升，但更新颖的模型也给知识蒸馏的应用带来了许多挑战。当前大部分知识蒸馏方法仍然是在传统的基准训练策略和模型上进行研究和实验，而在精度更高的新颖模型和策略下的表现甚至低于不使用知识蒸馏。以往的工作大多将此归结为模型的容量差异（capacity gap）导致的蒸馏效果下降。本文将介绍来自商汤研究团队和悉尼大学等机构的研究人员提出的一种logits层面的知识蒸馏算法DIST。该工作分析了不同大小及不同训练策略得到的模型的输出差异，并提出了一种新的logits蒸馏损失函数用于弱化这些差异，从而更关注那些对任务有意义的信息的蒸馏。实验结果表明，DIST不仅在基准模型和训练策略上取得了知识蒸馏的新高度，同时在目前SOTA的训练策略及模型下相较以往方法取得了大幅提升。

二、动机

题目中 “更强的教师模型”，有两个含义：尺寸更大，数据增强策略更先进。
获得更好的知识蒸馏性能的方式之一是尝试不同类型的教师模型 (比如说使用更大的教师模型或者更强的训练策略)，作者在本文中认为：应该借助 “更强的教师模型” 进行知识蒸馏。而针对什么是 “更强的教师模型”，作者推广实验给出了一些建议：
除了扩大模型规模，还可以通过先进的训练策略，如标签平滑和数据增强 (label smoothing and data augmentation)，以获得更强的教师模型。但是仅仅有这些是不够的。配备了更强的教师模型之后，学生模型在正常 KD 下的表现可能会下降，甚至性能还不如不用 KD。
为什么是这样呢？作者觉得：
当将教师和学生的训练策略转换为更强的训练策略时，教师和学生之间的差异往往会变得相当大。在这种情况下，通过 KL 散度来精确恢复预测可能具有挑战性，并导致 KD 的失败。
所以，作者在本文的动机是：
保留教师和学生模型之间的预测关系非常重要。在将知识从 teacher 传

最低0.47元/天解锁文章