Distilling the Knowledge in a Neural Network阅读笔记

最新推荐文章于 2023-02-01 21:34:52 发布

凡凡.cs

最新推荐文章于 2023-02-01 21:34:52 发布

阅读量351

点赞数

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/fanyuwgy/article/details/105739957

文章背景知识

文章就是将大网络的知识想办法迁移到小网络。所以背景知识就是普通的机器学习知识，包括神经网络，softmax函数等等。

1.介绍文章来源

第一作者是Geoffrey Hinton，号称人工智能三大创始人（Geoffrey Hinton、Yann LeCun与YoshuaBengio）之一，神经网络之父，谷歌高级专家，谷歌学术引用达到了24w。

第二作者Oriol Vinyals：年少成名，《星际争霸》游戏第一。后来后参与了tensorflow和mapreduce的开发，同是谷歌研究院。学术引用67000。

第三作者Jeff Dean：谷歌研究员，tensorflow和mapreduce的主要研究者，谷歌引用95000。

2.作者要完成什么

作者最主要的工作就是提出了模型蒸馏并验证。

“蒸馏”（distillation）：把大网络的知识压缩成小网络的一种方法。

再在第三个实验的地方，又提出了专家网络。

3.作者怎样完成的

这里一个可行的办法是使用大模型生成的模型类别概率作为“soft targets”（使用蒸馏算法以后的概率，相对应的 head targets 就是正常的原始训练数据集）来训练小模型，由于 soft targets 包含了更多的信息熵，所以每个训练样本都提供给小模型更多的信息用来学习，这样小模型就只需要用更少的样本，及更高的学习率去训练了。

4.论文中的关键数学推导、算法

关键的部分就是模型蒸馏，就是改造了softmax，能让概率输出的差距不是那么大。

其中T就是温度。当 T = 1 是就是常规的 Softmax，而升温T，对softmax进行蒸馏，函数的图像会变得越来越平滑。

5.文章的实验部分是怎么设计的?

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。