深度学习核心技术精讲100篇（六）-keras 实战系列之知识蒸馏（Knowledge Distilling）

文宇肃然

于 2020-07-29 08:41:31 发布

阅读量2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：深度学习100例全系列详细教程文章标签：机器学习深度学习人工智能知识蒸馏 keras

本文链接：https://blog.youkuaiyun.com/wenyusuran/article/details/107337884

深度学习100例全系列详细教程专栏收录该内容

81 篇文章 ¥19.90 ¥99.00

订阅专栏

本文介绍了知识蒸馏的概念，通过Geoffrey Hinton的论文提出用大模型（老师模型）教导小模型（学生模型）。在实践中，通过Keras在MNIST数据集上展示了知识蒸馏的过程，包括定义模型、训练、知识转移和升温技术的应用，以减少模型参数量并保持高准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

深度学习在这两年的发展可谓是突飞猛进，为了提升模型性能，模型的参数量变得越来越多，模型自身也变得越来越大。在图像领域中基于Resnet的卷积神经网络模型，不断延伸着网络深度。而在自然语言处理领域（NLP）领域，BERT，GPT等超大模型的诞生也紧随其后。这些巨型模型在准确性上大部分时候都吊打其他一众小参数量模型，可是它们在部署阶段，往往需要占用巨大内存资源，同时运行起来也极其耗时，这与工业界对模型吃资源少，低延时的要求完全背道而驰。所以很多在学术界呼风唤雨的强大模型在企业的运用过程中却没有那么顺风顺水。

知识蒸馏

为解决上述问题，我们需要将参数量巨大的模型，压缩成小参数量模型，这样就可以在不失精度的情况下，使得模型占用资源少，运行快，所以如何将这些大模型压缩，同时保持住顶尖的准确率，成了学术界一个专门的研究领域。2015年Geoffrey Hinton 发表的Distilling the Knowledge in a Neural Network的论文中提出了知识蒸馏技术，就是为了解决模型压而生的。至于文章的细节这里博主不做过多介绍，想了解的同学们可以好好研读原文。不过这篇文章的主要思想就如下方图片所示：用一个老师模型（大参数模型）去

了解本专栏