论文阅读笔记:Distilling the Knowledge in a Neural Network论文阅读
论文原文链接 原文链接
Distilling the Knowledge in a Neural Network
作者想要解决的问题
在模型训练的时候,为了保证模型的精度,我们可以使用达到模型,大的数据集,花费大量的时间、存储、计算资源去训练。但是在模型实际部署的时候,往往需要考虑延迟已经部署设备的资源限制。所以在部署阶段对模型进行压缩是有必要的。
用了什么方法解决
作者认为一个大网络是一个许多不同小模型的集合。大网络的输出是这些小模型输出的一个平均。如果大模型的效果很好的话。那么通过与大模型产生.
原创
2021-09-25 13:08:13 ·
265 阅读 ·
0 评论