论文解读 | 解耦知识蒸馏

最新推荐文章于 2024-12-07 23:28:03 发布

原创

最新推荐文章于 2024-12-07 23:28:03 发布 · 562 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #机器学习 #人工智能 #计算机视觉

本文介绍了论文“Decoupled Knowledge Distillation”，该论文重新审视了知识蒸馏的过程，提出了解耦知识蒸馏（DKD）的概念。DKD通过将知识蒸馏分解为目标类知识蒸馏（TCKD）和非目标类知识蒸馏（NCKD），提高了基于logit的蒸馏效率和性能。研究发现，NCKD对于基于logit的蒸馏至关重要，而TCKD的贡献则依赖于训练样本的难度。DKD在CIFAR-100和ImageNet等数据集上取得了与最先进的特征蒸馏方法相当的结果，同时保持了较低的计算和存储成本。

10 年来，DNN 的变革给计算机视觉领域带来了重大发展，促成了各种实时任务的繁荣，如图像分类、目标检测、语义分割等。然而强大的网络通常得益于大的网络容量，这通常以大量的计算和存储为代价，是工业应用所不喜欢的。在工业应用中，广泛采用的是轻量的模型。知识蒸馏是减小这种代价的一个有效方法，它可以把重型模型的知识迁移到轻型模型上，从而提高轻型模型的性能。知识蒸馏的概念最初是 Hinton 在论文 “Distilling the knowledge in a neural network” 中提出的，它通过最小化老师网络和学生网络输出 logit 的 KL 散度来完成知识迁移，见下图 (a)。但是自从 Fitnets 以来，有关知识蒸馏的研究大多都转移到了对中间层的深度特征的知识蒸馏，因为基于特征的蒸馏在各种任务上都性能更加优异。然而基于特征的蒸馏有一个缺点：在训练过程中，会引入大量额外的对计算和存储资源的需求。

基于 logit 的蒸馏恰恰能解决这一问题，只是经典 KD 性能一般。从直觉上来说，基于 logit 的知识蒸馏应当能达到和基于特征的知识蒸馏相当的性能，因为 logits 相对于深层特征，表达了更高层次的语义。“Decoupled Knowledge Distillation”论文重构了经典知识蒸馏的表达方式，通过新的表达方式分析了经典的基于 logit 的知识蒸馏性能不理想的原因，并提出了解决问题的方法：解耦知识蒸馏（Decoupled Knowledge Distillation, DKD），一种新的基于 logit 的知识蒸馏，见上图 (b)。DKD 在各种任务上能达到 SOTA，比起基于特征的知识蒸馏，有着更高的训练效率和特征迁移性能。