1.Distilling the Knowledge in a Neural Network
hiton的经典之作,大体上就是用softmax/t 代替softmax去用大网络学小网络,在mnist等小数据集取得了积极的结果。但是缺乏在imagenet之类的大叔据集的结果,用来训练的模型也是比较小的
2.Mimicking Very Efficient Network for Object Detection
sensetime的文章,在检测等方面宣称取得了比较好的效果,但是很可能结果变好和imagnet-finetune与否影响更大。
3.Face Model Compression by Distilling Knowledge from Neurons
HKCU-汤小鸥学生的文章,在识别上取得了比较好的结果,缺点是模型设计的不好,说服力削弱了一点。主要的key在于学习hidden比学习softmax好,再就是给出了如何筛选一批比较好的hidden-node。
4.A PPRENTICE : U SING K NOWLEDGE D ISTILLATION T ECHNIQUES T O I MPROVE L OW -P RECISION N ET - WORK A CCURACY
intel的文章,简单将就是int8时损失了一些精度,用distiling可以提升一部分
5.NISP: Pruning Networks using Neuron Importance Score Propagation
IBM的文章,用特征选择的方法压缩模型 可以结合文章3
6.Model Distillation with Knowledge Transfer in Face
Classification, Alignment and Verification
国内的一篇文章,把softmax和distiling想结合,做了很多实验,搞工程的可以参考下
总体上minic还是一种有用的方法,我有空会写一篇博客专门提提我用minic的成果