知识蒸馏实战代码教学一（原理部分）

最新推荐文章于 2025-12-29 12:22:21 发布

原创

最新推荐文章于 2025-12-29 12:22:21 发布 · 1.2k 阅读

·

20

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #机器学习 #人工智能 #知识蒸馏

本文介绍了知识蒸馏的概念，源于Hinton等人的论文，通过将大型模型的知识传授给小型模型，以提高性能、压缩模型并加速计算。文章详细阐述了原理，包括利用教师模型的输出作为监督信号，以及在模型压缩和迁移学习中的应用。最后预告了后续的代码实战内容。

一、知识蒸馏的来源

知识蒸馏（Knowledge Distillation）源自于一篇由Hinton等人于2015年提出的论文《Distilling the Knowledge in a Neural Network》。这个方法旨在将一个大型、复杂的模型的知识（通常称为教师模型）转移到一个小型、简化的模型（通常称为学生模型）中。通过这种方式，学生模型可以获得与教师模型相似的性能，同时具有更小的模型体积和计算资源需求。

二、知识蒸馏的原理

知识蒸馏的核心思想是利用教师模型的输出作为附加的监督信号来训练学生模型。在传统的监督学习中，目标是最小化模型预测与真实标签之间的差距（损失函数）。而在知识蒸馏中，除了最小化模型预测与真实标签之间的差距外，还引入了一个额外的损失项，该项衡量了学生模型预测与教师模型预测之间的距离。

具体而言，损失函数通常由两部分组成：一部分是传统的交叉熵损失，用于衡量学生模型的预测与真实标签之间的差距；另一部分是知识蒸馏损失，用于衡量学生模型的预测与教师模型的预测之间的差距。知识蒸馏损失通常使用一些形式的距离度量来计算，例如平方误差损失或者交叉熵损失。

在蒸馏求loss时候，需要采用蒸馏函数，这个函数就是把softmax函数在计算时候，预测出来的结果Z进行除以温度T，进行求解后验概率。下面是修改后的softmax函数，也就是蒸馏函数。

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。