蒸馏神经网络取名为蒸馏(Distill),其实是一个非常形象的过程。
我们把数据结构信息和数据本身当作一个混合物,分布信息通过概率分布被分离出来。首先,T值很大,相当于用很高的温度将关键的分布信息从原有的数据中分离,之后在同样的温度下用新模型融合蒸馏出来的数据分布,最后恢复温度,让两者充分融合。这也可以看成Prof. Hinton将这一个迁移学习过程命名为蒸馏的原因。
蒸馏神经网络想做的事情,本质上更接近于迁移学习(Transfer Learning),当然也可从模型压缩(Model Compression)的角度取理解蒸馏神经网络。
详细的推道过程和理论,可以参见我的另外一篇博客:知识蒸馏(Distillation)简介_自蒸馏算法大神-优快云博客
第一步:准备数据
cifar10开源数据集
(x_train, y_train), (x_valid,y_valid) = keras.datasets.cifar10.load_data()
<