
Knowledge Distillation
爆米花好美啊
个人网站: renguanghui.com
展开
-
Tutorial: Knowledge Distillation
概述Knowledge Distillation(KD)一般指利用一个大的teacher网络作为监督,帮助一个小的student网络进行学习,主要用于模型压缩。其方法主要分为两大类Output DistillationFeature DistillationOutput DistillationMotivation主要拉近teacher和student最终输出的距离,参考论文:...原创 2019-11-14 22:08:40 · 822 阅读 · 0 评论 -
Knowledge Distillation via Route Constrained Optimization
Motivation已有的KD方法提升性能都是基于一个假设:teacher模型可以提供一种弱监督,且能被一个小student网络学习,但是实际上一个收敛的大网络表示空间很难被student学习,这会导致congruence loss很高因此本文提出一种策略route constrained optimization,根据参数空间的route去选择teacher的参数,一步一步的指导studen...原创 2019-11-14 22:02:15 · 1343 阅读 · 0 评论 -
FitNets: Hints for Thin Deep Nets
其实应该先早点写这篇文章的这篇文章主要是将hinton的output distillation扩展到了feature distillation该loss用来拉进student和teacher feature的距离该loss就是与hard label、soft label做cross entroy训练过程需要注意:先进行hints training,即选择某一层feature对...原创 2019-11-14 21:59:21 · 1225 阅读 · 0 评论 -
Distilling the Knowledge in a Neural Network
其实应该最先写这篇文章的总结的,之前看了忘了记录Motivationone hot label会将所有不正确的类别概率都设置为0,而一个好的模型预测出来的结果,这些不正确的类别概率是有不同的,他们之间概率的相对大小其实蕴含了更多的信息,代表着模型是如何泛化判别的。比如一辆轿车,一个模型更有可能把它预测成卡车而不是猫,这其实给出了比one hot label更多的信息即轿车和卡车更像,而和...原创 2019-11-14 21:55:59 · 323 阅读 · 0 评论 -
Correlation Congruence for Knowledge Distillation
Motivation目前大多数KD框架的pipeline一张图片送入teacher和student得到各自的feature和output然后定义loss,拉进feature或者output的距离但是他们都是直接在一个整图级别上做的,student很难学习到teacher的那种处理类内和类间的能力如下图:白色空心圈是期望学习到的效果左边是期望类间可以拉开,右边是期望类内可以聚拢M...原创 2019-11-14 21:53:02 · 813 阅读 · 0 评论 -
A Comprehensive Overhaul of Feature Distillation
MotivationClovaAI今年ICCV做了还几篇总结性的工作,该篇也类似,先总结当下做feature distillation的各个方向,总体的pipeline是选取student和teacher网络结构的某个位置然后对特征进行变换,最后拉进他们的距离Teacher transform: 为了让teacher和student的feature map一样大(空间或者通道),会对teac...原创 2019-11-07 20:53:33 · 3111 阅读 · 0 评论 -
Attention Transfer
Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention TransferMotivation大量的论文已经证明Attention在CV、NLP中都发挥着巨大的作用,因为本文利用Attention做KD,即让student学习tea...原创 2019-11-07 20:48:05 · 1850 阅读 · 0 评论 -
Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self Distillation
Loss Source 1: Cross entropy loss,各个阶段的分类器都有Loss Source 2: KL loss,深层的分类器作为浅层分类器的teacherLoss Source 3: L2 loss from hints,深层分类器的特征和浅层分类器的特征做L2 loss,bottleneck即feature adaptation,为了使student和teacher一...原创 2019-11-07 20:44:43 · 1507 阅读 · 0 评论 -
Similarity-Preserving Knowledge Distillation
Motivation下图可以发现,语义相似的输入会产生相似的激活。这个非常好理解,这个C维的特征向量可以代表该输入的信息因此本文根据该观察提出了一个新的蒸馏loss,即一对输入送到teacher中产生的特征向量很相似,那么送到student中产生的特征向量也应该很相似,反义不相似的话同样在student也应该不相似。该loss被称为Similarity-preserving,这样studen...原创 2019-11-05 22:04:14 · 3599 阅读 · 0 评论 -
On the Efficacy of Knowledge Distillation
Motivation实验观察到:并不是性能越好的teacher就能蒸馏(教)出更好的student,因此本文想梳理出影响蒸馏性能的因素推测是容量不匹配的原因,导致student模型不能够mimic teacher,反而带偏了主要的loss之前解决该问题的做法是逐步的进行蒸馏,但是效果也不好。左边Teacher为WRN k-1,k是深度,Student是WRN16-1和DN40-12(D...原创 2019-11-01 19:05:54 · 1683 阅读 · 0 评论 -
Revisit Knowledge Distillation: a Teacher-free Framework
Observations通过几组实验观察到反转Knowledge Distillation(KD)即利用student来guide teacher的话,teacher的性能依然可以得到提升用一个比student还差的teacher来guide student的话,student的性能依然可以得到提升因此作者得到以下观点KD只是一种可学习的label smoothing regula...原创 2019-10-30 21:42:08 · 2115 阅读 · 0 评论 -
Distilling Object Detectors with Fine-grained Feature Imitation
Motivation检测起更focus在物体出现的区域 Detectors care more about local near object regions.物体出现的周围特征变化其实包含了更多重要信息,这是student网络需要向teacher网络学习的注解:与分类不同,蒸馏方法在检测中如果进行全特征模仿的话对子网络的提升很有限(这里存疑,文章没有明确指出全特征模仿了哪些特征层)。...原创 2019-10-30 21:30:52 · 1982 阅读 · 0 评论