这篇论文的题目是 用于小样本Transformers的监督遮掩知识蒸馏
论文接收: CVPR 2023
论文地址: https://arxiv.org/pdf/2303.15466.pdf
代码链接: https://github.com/HL-hanlin/SMKD
1 Motivation
1.ViT在小样本学习(只有少量标记数据的小型数据集)中往往会 过拟合,并且由于缺乏 归纳偏置 而导致性能较差;
2.目前很多方法使用 自监督学习 和 监督学习 来缓解这个问题,但是没有方法能很好平衡监督和自监督两个的学习目标;
3.最近提出的 自监督掩蔽知识蒸馏 方法在各个领域的Transfomrers取得了先进的效果。
2 Ideas
提出了一种新的基于Transformer的监督知识蒸馏框架(SMKD)
1.将类标签纳入自监督知识蒸馏中,以填补自监督与监督学习之间的空白,从而有效地利用自监督学习的优势来缓解监督训练的过度拟合问题;
2.在 类(全局) 和 patch(局部) 级别上都制定了监督对比损失,允许在 类 和 patch tokens 上进行类内知识蒸馏,以学习到效果更好的小样本Transformer模型;
3.引入跨类内图像遮掩patch tokens重建的挑战性任务,以提高模型泛化性能。

本文结合了自监督知识蒸馏和监督对比学习,同时引入遮掩图像模型(MIM)
3 Related works
1.小样本学习
FSL 中最近的方法开始较少关注元学习,而更多地关注具有良好泛化能力的学习嵌入。
因此,本文提出了一个知识蒸馏框架来学习可泛化的嵌入
2.FSL 中的Vision Transformers
归纳偏置的缺乏使得 Transformer 因其数据量大的特性而臭名昭著,但仍然具有快速适应新类别的潜力。
本文提出的方法在没有明确纳入归纳偏置的Transformer结构依然表现良好
3.FSL 的自监督SSL
(1)自监督可以学习到对基类的较小的偏置表示,这通常会导致对新类的泛化能力更好
(2)两类工作将 SSL 合并到 FSL:一种通过辅助损失将自监督的代理任务纳入标准监督学习;一种采用自监督预训练、监督训练两阶段来训练few-shot Transformers
本文相比之前的工作,没有设计复杂的训练管道,而是在自监督预训练模型上使用监督训练,以填补自监督和监督知识蒸馏之间的差距。
4.SSL的遮掩图像模型(MIM)
恢复损坏的输入图像中遮掩的patch级目标内容
4 Methods
4.1 SMKD 框架
1.从跨类内图像(两个图像)分别生成两个视图。
2.第一个试图应用随机块遮掩,送入学生网络;同时第二个未遮掩试图送入教师网络。这两个网络都由一个ViT 主干的编码器和一个带有 3 层多层感知器 (MLP) 的投影头组成。
3.SMKD在类和patch级别上在类内跨试图中蒸馏知识。 L [ c l s ] L_{[cls}] L[cls] 从 [ c l s ] [cls] [cls] 标记中蒸馏知识,而 L [ p a t c h ] L_{[patch]} L[patch] 通过找到具有最高相似度的匹配标记对(由红色虚线连接)的密集对应关系,从 [ p a t c h ] [patch] [patch] 标记中提取知识。

该论文提出了一种名为SMKD的新方法,旨在解决小样本学习中Transformer模型的过拟合问题。SMKD结合了监督知识蒸馏和自监督学习,通过引入类标签到自监督过程中,并在类和patch级别上设定对比损失,以及利用遮掩图像模型增强模型的泛化能力。实验表明,这种方法能有效提升小样本Transformer模型的性能。
最低0.47元/天 解锁文章
1175





