文章背景知识
文章就是将大网络的知识想办法迁移到小网络。所以背景知识就是普通的机器学习知识,包括神经网络,softmax函数等等。
1.介绍文章来源
第一作者是Geoffrey Hinton,号称人工智能三大创始人(Geoffrey Hinton、Yann LeCun与YoshuaBengio)之一,神经网络之父,谷歌高级专家,谷歌学术引用达到了24w。
第二作者Oriol Vinyals:年少成名,《星际争霸》游戏第一。后来后参与了tensorflow和mapreduce的开发,同是谷歌研究院。学术引用67000。
第三作者Jeff Dean:谷歌研究员,tensorflow和mapreduce的主要研究者,谷歌引用95000。
2.作者要完成什么
作者最主要的工作就是提出了模型蒸馏并验证。
“蒸馏”(distillation):把大网络的知识压缩成小网络的一种方法。
再在第三个实验的地方,又提出了专家网络。
3.作者怎样完成的
这里一个可行的办法是使用大模型生成的模型类别概率作为“soft targets”(使用蒸馏算法以后的概率,相对应的 head targets 就是正常的原始训练数据集)来训练小模型,由于 soft targets 包含了更多的信息熵,所以每个训练样本都提供给小模型更多的信息用来学习,这样小模型就只需要用更少的样本,及更高的学习率去训练了。
4.论文中的关键数学推导、算法
关键的部分就是模型蒸馏,就是改造了softmax,能让概率输出的差距不是那么大。
其中T就是温度。当 T = 1 是就是常规的 Softmax,而升温T,对softmax进行蒸馏,函数的图像会变得越来越平滑。