Training Deep Neural Networks in Generations:A More Tolerant Teacher Educates Better Students是CVPR2018的一篇文章,在知识蒸馏方向对于教师模型和学生模型的学习效果进行了进一步的探讨,在阅读本文之前,需要考虑两个问题,
(1)为什么教师和学生网络之间的学习会有效?
注:在知识蒸馏方向需要探索的一个关键问题,让教师模型生成的soft logits可以尽可能地与匹配于学生模型,使得训练效果更好,一个重要的目标是对于同一任务,任意网络X可以从任意网络Y中获取有用的暗知识,进而引起测试效果的提升。
(2)为什么较低的教师模型准确率反而带来更高的学生模型的效果提升?
本文的主要贡献是:
(1)提出了一个新的视角来解释为什么知识蒸馏的优化原因。
(2)提出了一种量化其影响的评价方法。
(3)设计了一个高效的“宽容教师”框架,取得了优异的性能。
古语云:“青出于蓝而胜于蓝”
1.Introduce:
(1)硬标签会导致模型产生过拟合的现象。
注:从信息学的角度来说,即通过信息熵的计算soft logits相比于hard label确实是一个熵增的过程。
(2)相同网络架构的相互学习会超出彼此本身的训练性能极限。
注:再生神经网络(Born-Again Network)中提出的内容,有人说这篇文章的创新度不够,其实从根本来说是从不同的初始训练误差中逐渐逼近的过程,类似的方法可以为相关工作提供一些新思路,但实用价值不高,毕竟不会无限次的循环训练网络。
&