Knowledge Distillation 本质: Train一个大的Network,也train一个小的Network,让小的去学习大的。 个人理解:相当于多引入了一些监督信息,不止是知道label是1,还知道1和7很像,1和9很像。 妙用:多个Network效果好,但是不能部署到Device上,用Knowledge Distillation后就可以。 Trick:保存Teacher会引入有用的、更多的、不同于label one-hot一样的监督信息,所以若用softmax,做如下操作