知识蒸馏介绍

最新推荐文章于 2025-05-10 09:37:16 发布

zhurui_xiaozhuzaizai

最新推荐文章于 2025-05-10 09:37:16 发布

阅读量1.6k

点赞数 16

分类专栏：自然语言处理文章标签：自然语言处理人工智能

本文链接：https://blog.youkuaiyun.com/weixin_36378508/article/details/140691840

版权

在这里插入图片描述

一、知识蒸馏介绍

1.1 概念介绍

知识蒸馏（knowledge distillation）是模型压缩的一种常用的方法，不同于模型压缩中的剪枝和量化，知识蒸馏是通过构建一个轻量化的小模型，利用性能更好的大模型的监督信息，来训练这个小模型，以期达到更好的性能和精度。
最早是由Hinton在2015年首次在文章《Distilling the Knowledge in a Neural Network》中提出并应用在分类任务上面，这个复杂模型我们称之为teacher（教师模型），小模型我们称之为Student（学生模型）。来自Teacher模型输出的监督信息称之为knowledge(知识)，而student学习迁移来自teacher的监督信息的过程称之为Distillation(蒸馏)。

1.2 为什么要有知识蒸馏？

深度学习在计算机视觉、语音识别、自然语言处理等内的众多领域中均取得了令人难以置信的性能。但是，大多数模型在计算上过于昂贵，无法在移动端或嵌入式设备上运行。因此需要对模型进行压缩，且知识蒸馏是模型压缩中重要的技术之一。

提升模型精度
如果对目前的网络模型A的精度不是很满意，那么可以先训练一个更高精度的teacher模型B（通常参数量更多，时延更大），然后用这个训练好的teacher模型B对student模型A进行知识蒸馏，得到一个更高精度的A模型。

降低模型时延，压缩网络参数
如果对目前的网络模型A的时延不满意，可以先找到一个时延更低，参数量更小的模型B，通常来讲，这种模型精度也会比较低，然后通过训练一个更高精度的teacher模型C来对这个参数量小的模型B进行知识蒸馏，使得该模型B的精度接近最原始的模型A，从而达到降低时延的目的。

标签之间的域迁移
假如使用狗和猫的数据集训练了一个teacher模型A，使用香蕉和苹果训练了一个teacher模型B，那么就可以用这两个模型同时蒸馏出一个可以识别狗、猫、香蕉以及苹果的模型，将两个不同域的数据集进行集成和迁移。

降低标注量
该功能可以通过半监督的蒸馏方式来实现，用户利用训练好的teacher网络模型来对未标注的数据集进行蒸馏，达到降低标注量的目的。

因此，在工业界中对知识蒸馏和迁移学习也有着非常强烈的需求。

补充模型压缩的知识::模型压缩大体上可以分为 5 种：

模型剪枝：即移除对结果作用较小的组件，如减少 head 的数量和去除作用较少的层，共享参数等，ALBERT属于这种；
量化：比如将 float32 降到 float8；
知识蒸馏：将 teacher 的能力蒸馏到 student上，一般 student 会比 teacher 小。我

最低0.47元/天解锁文章