【知识蒸馏】Knowledge Distillation with the Reused Teacher Classifier

原创

已于 2023-03-07 21:41:35 修改 · 1.6k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习 #人工智能

于 2023-02-28 19:44:19 首次发布

SimKD是一种简单而有效的知识蒸馏技术，它通过特征对齐和重用教师模型的分类器来训练学生模型，减少了与教师模型的性能差距。这种方法避免了复杂的知识表示和超参数调整，通过单一的ℓ2损失实现特征对齐，提高了压缩率和泛化能力。实验表明，SimKD在多种网络结构和场景下，包括多教师知识蒸馏和无数据知识蒸馏，均表现出优越的性能。

一、摘要

知识蒸馏的目的是将一个强大而繁琐的教师模型压缩到一个轻量级的学生模型中，而不至于牺牲很多性能。为此，在过去的几年里，人们提出了各种方法，一般都有精心设计的知识表示，这反过来又增加了模型开发和解释的难度。相比之下，我们的经验表明，一个简单的知识蒸馏技术足以大大缩小师生之间的性能差距。我们直接将预先训练好的教师模型中的判别分类器重新用于学生推理，并通过单一的ℓ2损失的特征对齐来训练学生编码器。这样一来，只要他们提取的特征完全一致，学生模型就能达到与教师模型完全相同的性能。我们开发了一个额外的投影仪来帮助学生编码器与教师分类器相匹配，这使得我们的技术适用于各种教师和学生架构。广泛的实验表明，我们的技术取得了最先进的结果，但由于增加了投影仪，压缩率的代价不大。

二、引言

我们提出的 "SimKD "技术如图1所示。我们认为，教师模型强大的类别预测能力不仅归功于那些表现性的特征，而且同样重要的是归功于一个判别性的分类器。基于这一论点，并在后面得到了经验上的支持，我们在分类器的前一层通过特征对齐来训练学生模型，并直接复用教师分类器进行学生推理。这样一来，如果我们能将学生的特征与教师模型的特征完美对齐，他们的性能差距就会消失。也就是说，仅仅是特征对齐误差就占了学生推理的准确性，这使得我们的知识转移更容易被理解。根据我们的实验结果，单一的ℓ2损失用于特征对齐已经有了惊人的效果。这样一个简单的损失使我们不必像以前的工作那样，为了平衡多个损失的影响而仔细调整超参数。
在这里插入图片描述
图1. 我们提出的SimKD的概述。在最终分类器的前一层，采用了简单的L2损失进行特征对齐。在训练过程中，只有学生的特征编码器和维度投影仪被更新（有黑色边框的方框）。预先训练的教师分类器被重新用于学生的推理。

由于从教师和学生模型中提取的特征的维度通常是不同的，因此在学生特征编码器之后增加了一个投影仪来弥补这种维度不匹配。这个投影仪在教师到学生的压缩过程中一般会产生小于3%的剪枝率，但它使我们的技术适用于任意的模型结构。在少数情况下，如果增加的投影仪加上重用的教师分类器的参数数小于原来的学生分类器的参数数，剪枝率甚至可以扩大（见图7）。我们在标准的基准数据集上进行了广泛的实验，观察到我们的SimKD在各种师生结构组合下始终胜过所有比较过的最先进的方法。我们还表明，我们的简单技术在不同的场景下有很好的通用性，如多教师知识蒸馏和无数据知识蒸馏。

三、相关工作

在上述知识表示或重构迁移策略的帮助下，学生模型将使用来自最后一层（即分类器）的梯度信息进行训练，也可以从这些早期层进行训练。然而，额外的超参数需要在这些方法中仔细调整以平衡不同损失的影响，目前尚不清楚新引入的监督信号如何对学生模型的最终性能产生积极影响。

在某种程度上，我们重用教师分类器的关键思想是与之前关于假设迁移学习 (HTL) 的研究有关。HTL 旨在利用学习到的源域分类器来帮助目标域分类器的训练，条件是只有少量标记的目标数据集且无法访问源数据集。与此不同的是，SimKD的目标是减少同一数据集上的师生性能差距，而不是调整预训练模型以在具有不同分布的另一个数据集上获得良好的性能。此外，我们的 SimKD 比这项工作

最低0.47元/天解锁文章