这篇论文不是用作模型压缩的,作者想的是让student超越teacher

其训练方式如下:

实验结果,student超越teacher了:

Knowledge Distillation(10)——Born Again Neural Networks
最新推荐文章于 2022-11-26 19:41:31 发布
本文介绍了一种训练方法,使学生模型能够在某些方面超越教师模型。这种方法不是为了模型压缩,而是为了让学生模型在性能上超越教师模型。实验结果显示,经过特定训练的学生模型确实实现了这一目标。
1440

被折叠的 条评论
为什么被折叠?



