1. 概念阐释:
还记得上次说的“老师教你画画,不只教‘猫’,还教‘像狗像树叶’的细微感觉”吗?那是最初的蒸馏。
后来大家发现,老师不仅仅通过“最后画出来像什么”来教你。
- 有时候,老师是教你“他画画时,哪里用了力气,哪里画得特别认真”(这叫基于特征的蒸馏,学习老师画画的“内在过程”)。
- 有时候,老师是教你“这只猫和旁边那只老虎,它们之间有什么不同和相似”(这叫基于关系的蒸馏,学习老师对不同东西的“比较和连接”)。
所以,知识蒸馏就像是,老师有很多种高级的教学方法,不只通过最终的“画作”来教你,还通过他“画画的技巧”和“对不同画的理解和比较”来教你,让你这个小孩子(小模型)学得更全面,更聪明!
自Hinton开创性的基于Logits的知识蒸馏后,研究者们发现,“知识”不仅仅是最终的预测概率,它还能以其他形式存在于教师模型中,并能被有效地传递。这导致了知识蒸馏方法的极大丰富。
A. 不同类型的知识蒸馏(知识传递方式的演变):
-
1. 基于响应(Response-based / Logits-based)的蒸馏:
- 知识是什么: 这就是Hinton原始论文的核心——教师模型在特定温度下产生的软概率分布(Soft Targets)
订阅专栏 解锁全文
1295

被折叠的 条评论
为什么被折叠?



