1. 网络结构:

Gate为全连接网络,用来学习哪个网络更重要。目前利用全连接网络选择网络部件重要性的方法很流行。“三个臭皮匠顶个诸葛亮?”,感觉很像bagging方法。
2. 损失函数:

训练时softmax都有温度T=3蒸馏,测试时就恢复T=1。

最终的Loss
On-the-Fly Native Ensemble: 知识蒸馏与分支结构解析
该博客介绍了通过动态的本地集成(On-the-Fly Native Ensemble)进行知识蒸馏的方法,探讨了网络结构中的门控机制以及其在ResNet上的应用。损失函数包含分支损失、教师网络损失和KL散度,测试结果显示在网络的最后几个块引入分支结构能显著提高准确率,特别是在CIFAR-100数据集上。在ImageNet数据集上也有提升,但提升幅度较小。这种方法对于不同网络和数据集的效果仍有待进一步验证。
1. 网络结构:

Gate为全连接网络,用来学习哪个网络更重要。目前利用全连接网络选择网络部件重要性的方法很流行。“三个臭皮匠顶个诸葛亮?”,感觉很像bagging方法。
2. 损失函数:

训练时softmax都有温度T=3蒸馏,测试时就恢复T=1。

最终的Loss
5553
1764