来源:TPAMI2022 Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New Outlooks中表1和表2的方法

[10] Contrastive representation distillation
开源代码:https://github.com/HobbitLong/RepDistiller
具体数学推导看不懂,,,
知乎博客
主要idea:属于同一个标签类的教师与学生的特征需要尽可能的接近,而属于不同类的教师与学生的特征需要尽可能的疏远
[8] CVPR 2019:Variational information distillation for knowledge transfer 最大化学生与教师特征之间的互信息
[16] ICCV 2019:On the Efficacy of Knowledge Distillation
在本文中,我们对知识蒸馏的功效及其对学生和教师架构的依赖性进行了全面评估。从更准确的教师往往并非好教师这一观察出发,我们试图梳理出影响知识蒸馏性能的因素。关键在于,我们发现更大的模型通常并非更好的教师。我们表明这是容量不匹配的结果,即小学生无法模仿大教师。我们发现规避此问题的典型方法(如执行一系列知识蒸馏步骤)是无效的。最后,我们表明通过提前停止教师的训练可以减轻这种影响。我们的结果在不同数据集和模型中具有普遍性。
[17] CVPR 2019:Snapshot Distillation: Teacher-Student Optimization in One Generation
提出了snapshot distillation的概念,即采用迭代轮次更早期的cl < l 教师参数来优化第l-1次学生参数

[18] ICLR 2019: Knowledge flow: Improve upon your teachers
开发了知识流方法,它将 “知识” 从多个深度网络(称为教师网络)转移到一个新的深度网络模型(称为学生网络)。教师网络和学生网络的结构可以任意不同,并且它们也可以在具有不同输出空间的完全不同的任务上进行训练。通过知识流进行训练后,学生网络将独立于教师网络。
[26] CVPR 2019:Learning Metrics from Teachers: Compact Networks for Image Embedding
在本文中,我们提出两个新的损失函数,用于模拟深度教师网络与小型学生网络之间的信息传递。我们在多个数据集(包括 CUB - 200 - 2011、Cars - 196、Stanford Online Products)上评估了我们的系统,结果表明,使用小型学生网络计算的嵌入比使用类似规模的标准网络计算的嵌入性能显著更好。在一个非常紧凑的网络(MobileNet - 0.25,可用于移动设备)上的实验结果显示,所提出的方法可将 Recall@1 结果从 27.5% 大幅提高到 44.6%。
此外,我们还研究了嵌入蒸馏的各个方面,包括提示层和注意力层、半监督学习以及跨质量蒸馏。



两种loss,第一种,对于同一个样本,按照公式4,最小化教师与学生特征之间的绝对距离
第二种loss,对于不同的两个样本,按照公式6,定义两个样本之间的度量,然后最小化教师与学生之间的度量

所提出的方法还可以拓展到hint和attention的蒸馏方法,将hint和attention的蒸馏损失加在公式7中,得到

添加Hint知识蒸馏损失

添加attention知识蒸馏损失


最低0.47元/天 解锁文章
1511

被折叠的 条评论
为什么被折叠?



