论文笔记|CVPR2023:Supervised Masked Knowledge Distillation for Few-Shot Transformers

原创

已于 2023-05-05 15:20:57 修改 · 3.3k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #深度学习 #人工智能

于 2023-04-25 01:59:16 首次发布

该论文提出了一种名为SMKD的新方法，旨在解决小样本学习中Transformer模型的过拟合问题。SMKD结合了监督知识蒸馏和自监督学习，通过引入类标签到自监督过程中，并在类和patch级别上设定对比损失，以及利用遮掩图像模型增强模型的泛化能力。实验表明，这种方法能有效提升小样本Transformer模型的性能。

这篇论文的题目是用于小样本Transformers的监督遮掩知识蒸馏
论文接收： CVPR 2023
论文地址： https://arxiv.org/pdf/2303.15466.pdf
代码链接： https://github.com/HL-hanlin/SMKD 在这里插入图片描述

1 Motivation

1.ViT在小样本学习（只有少量标记数据的小型数据集）中往往会过拟合，并且由于缺乏归纳偏置而导致性能较差；

2.目前很多方法使用自监督学习和监督学习来缓解这个问题，但是没有方法能很好平衡监督和自监督两个的学习目标；

3.最近提出的 自监督掩蔽知识蒸馏 方法在各个领域的Transfomrers取得了先进的效果。

2 Ideas

提出了一种新的基于Transformer的监督知识蒸馏框架（SMKD）

1.将类标签纳入自监督知识蒸馏中，以填补自监督与监督学习之间的空白，从而有效地利用自监督学习的优势来缓解监督训练的过度拟合问题；

2.在类(全局) 和 patch(局部) 级别上都制定了监督对比损失，允许在类和 patch tokens 上进行类内知识蒸馏，以学习到效果更好的小样本Transformer模型；

3.引入跨类内图像遮掩patch tokens重建的挑战性任务，以提高模型泛化性能。

在这里插入图片描述
本文结合了自监督知识蒸馏和监督对比学习，同时引入遮掩图像模型（MIM）

3 Related works

1.小样本学习
FSL 中最近的方法开始较少关注元学习，而更多地关注具有良好泛化能力的学习嵌入。
因此，本文提出了一个知识蒸馏框架来学习可泛化的嵌入

2.FSL 中的Vision Transformers
归纳偏置的缺乏使得 Transformer 因其数据量大的特性而臭名昭著，但仍然具有快速适应新类别的潜力。
本文提出的方法在没有明确纳入归纳偏置的Transformer结构依然表现良好

3.FSL 的自监督SSL
（1）自监督可以学习到对基类的较小的偏置表示，这通常会导致对新类的泛化能力更好
（2）两类工作将 SSL 合并到 FSL：一种通过辅助损失将自监督的代理任务纳入标准监督学习；一种采用自监督预训练、监督训练两阶段来训练few-shot Transformers
本文相比之前的工作，没有设计复杂的训练管道，而是在自监督预训练模型上使用监督训练，以填补自监督和监督知识蒸馏之间的差距。

4.SSL的遮掩图像模型（MIM）
恢复损坏的输入图像中遮掩的patch级目标内容

4 Methods

4.1 SMKD 框架

1.从跨类内图像（两个图像）分别生成两个视图。
2.第一个试图应用随机块遮掩，送入学生网络；同时第二个未遮掩试图送入教师网络。这两个网络都由一个ViT 主干的编码器和一个带有 3 层多层感知器 (MLP) 的投影头组成。
3.SMKD在类和patch级别上在类内跨试图中蒸馏知识。 $L_{[cls}]$ 从 $[c l s]$ 标记中蒸馏知识，而 $L_{[patch]}$ 通过找到具有最高相似度的匹配标记对（由红色虚线连接）的密集对应关系，从 $[p a t c h]$ 标记中提取知识。