Knowledge Distillation by On-the-Fly Native Ensemble论文解读
1. 网络结构:
Gate为全连接网络,用来学习哪个网络更重要。目前利用全连接网络选择网络部件重要性的方法很流行。“三个臭皮匠顶个诸葛亮?”,感觉很像bagging方法。
2. 损失函数:
训练时softmax都有温度T=3蒸馏,测试时就恢复T=1。
最终的Loss
第一项代表各个分支的损失,第二项代表最后Teacher的损失,第三项代表各...
原创
2019-01-21 15:49:35 ·
1247 阅读 ·
1 评论