典型常见的知识蒸馏方法总结三

来源:TPAMI2022 Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New Outlooks中表1和表2的方法

在这里插入图片描述

[10] Contrastive representation distillation

开源代码:https://github.com/HobbitLong/RepDistiller
具体数学推导看不懂,,,
知乎博客
主要idea:属于同一个标签类的教师与学生的特征需要尽可能的接近,而属于不同类的教师与学生的特征需要尽可能的疏远

[8] CVPR 2019:Variational information distillation for knowledge transfer 最大化学生与教师特征之间的互信息

[16] ICCV 2019:On the Efficacy of Knowledge Distillation

在本文中,我们对知识蒸馏的功效及其对学生和教师架构的依赖性进行了全面评估。从更准确的教师往往并非好教师这一观察出发,我们试图梳理出影响知识蒸馏性能的因素。关键在于,我们发现更大的模型通常并非更好的教师。我们表明这是容量不匹配的结果,即小学生无法模仿大教师。我们发现规避此问题的典型方法(如执行一系列知识蒸馏步骤)是无效的。最后,我们表明通过提前停止教师的训练可以减轻这种影响。我们的结果在不同数据集和模型中具有普遍性。

[17] CVPR 2019:Snapshot Distillation: Teacher-Student Optimization in One Generation

提出了snapshot distillation的概念,即采用迭代轮次更早期的cl < l 教师参数来优化第l-1次学生参数

在这里插入图片描述

[18] ICLR 2019: Knowledge flow: Improve upon your teachers

开发了知识流方法,它将 “知识” 从多个深度网络(称为教师网络)转移到一个新的深度网络模型(称为学生网络)。教师网络和学生网络的结构可以任意不同,并且它们也可以在具有不同输出空间的完全不同的任务上进行训练。通过知识流进行训练后,学生网络将独立于教师网络。

[26] CVPR 2019:Learning Metrics from Teachers: Compact Networks for Image Embedding

在本文中,我们提出两个新的损失函数,用于模拟深度教师网络与小型学生网络之间的信息传递。我们在多个数据集(包括 CUB - 200 - 2011、Cars - 196、Stanford Online Products)上评估了我们的系统,结果表明,使用小型学生网络计算的嵌入比使用类似规模的标准网络计算的嵌入性能显著更好。在一个非常紧凑的网络(MobileNet - 0.25,可用于移动设备)上的实验结果显示,所提出的方法可将 Recall@1 结果从 27.5% 大幅提高到 44.6%。
此外,我们还研究了嵌入蒸馏的各个方面,包括提示层和注意力层、半监督学习以及跨质量蒸馏。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

两种loss,第一种,对于同一个样本,按照公式4,最小化教师与学生特征之间的绝对距离
第二种loss,对于不同的两个样本,按照公式6,定义两个样本之间的度量,然后最小化教师与学生之间的度量

在这里插入图片描述

所提出的方法还可以拓展到hint和attention的蒸馏方法,将hint和attention的蒸馏损失加在公式7中,得到

在这里插入图片描述

添加Hint知识蒸馏损失

在这里插入图片描述

添加attention知识蒸馏损失

在这里插入图片描述

[28] CVPR 2019:Relational knowledge distillation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值