论文:Distilling the Knowledge in a Neural Network
相关论文查找网站:
1. Connected Papers | Find and explore academic papers
2. https://paperswithcode.com/
3. 知识蒸馏在做什么?
将soft targets的结果作为标签进行训练stduent model,增加了更多的信息(物体间的相似度):
知识蒸馏主要是将大模型轻量化,以教师网络的输出(即通过数据集学到的各类检测物间的概率,概率中包含类与类间的隐式关系,即各类物体间的相似程度)作为学生网络的输入,以供学生网络学习轻量化模型。
4. 如何蒸馏?
通过温度T进行蒸馏(T用来将各类物体间的相似度进行放大或缩小):
当T=1时,pi就是标准的softmax;随着T的增加,softmax函数的概率分布函数就会变得更加平缓,也就是将各类之间的相似度拉得趋近于相同,如下图所示:
5. 损失函数: