论文笔记|CVPR2023:Supervised Masked Knowledge Distillation for Few-Shot Transformers

该论文提出了一种名为SMKD的新方法,旨在解决小样本学习中Transformer模型的过拟合问题。SMKD结合了监督知识蒸馏和自监督学习,通过引入类标签到自监督过程中,并在类和patch级别上设定对比损失,以及利用遮掩图像模型增强模型的泛化能力。实验表明,这种方法能有效提升小样本Transformer模型的性能。

这篇论文的题目是 用于小样本Transformers的监督遮掩知识蒸馏
论文接收: CVPR 2023
论文地址: https://arxiv.org/pdf/2303.15466.pdf
代码链接: https://github.com/HL-hanlin/SMKD在这里插入图片描述

1 Motivation

1.ViT在小样本学习(只有少量标记数据的小型数据集)中往往会 过拟合,并且由于缺乏 归纳偏置 而导致性能较差;

2.目前很多方法使用 自监督学习 和 监督学习 来缓解这个问题,但是没有方法能很好平衡监督和自监督两个的学习目标;

3.最近提出的 自监督掩蔽知识蒸馏 方法在各个领域的Transfomrers取得了先进的效果。

2 Ideas

提出了一种新的基于Transformer的监督知识蒸馏框架(SMKD)

1.将类标签纳入自监督知识蒸馏中,以填补自监督与监督学习之间的空白,从而有效地利用自监督学习的优势来缓解监督训练的过度拟合问题;

2.在 类(全局) 和 patch(局部) 级别上都制定了监督对比损失,允许在 类 和 patch tokens 上进行类内知识蒸馏,以学习到效果更好的小样本Transformer模型;

3.引入跨类内图像遮掩patch tokens重建的挑战性任务,以提高模型泛化性能。

在这里插入图片描述
本文结合了自监督知识蒸馏和监督对比学习,同时引入遮掩图像模型(MIM)

3 Related works

1.小样本学习
FSL 中最近的方法开始较少关注元学习,而更多地关注具有良好泛化能力的学习嵌入。
因此,本文提出了一个知识蒸馏框架来学习可泛化的嵌入

2.FSL 中的Vision Transformers
归纳偏置的缺乏使得 Transformer 因其数据量大的特性而臭名昭著,但仍然具有快速适应新类别的潜力。
本文提出的方法在没有明确纳入归纳偏置的Transformer结构依然表现良好

3.FSL 的自监督SSL
(1)自监督可以学习到对基类的较小的偏置表示,这通常会导致对新类的泛化能力更好
(2)两类工作将 SSL 合并到 FSL:一种通过辅助损失将自监督的代理任务纳入标准监督学习;一种采用自监督预训练、监督训练两阶段来训练few-shot Transformers
本文相比之前的工作,没有设计复杂的训练管道,而是在自监督预训练模型上使用监督训练,以填补自监督和监督知识蒸馏之间的差距。

4.SSL的遮掩图像模型(MIM)
恢复损坏的输入图像中遮掩的patch级目标内容

4 Methods

4.1 SMKD 框架

1.从跨类内图像(两个图像)分别生成两个视图。
2.第一个试图应用随机块遮掩,送入学生网络;同时第二个未遮掩试图送入教师网络。这两个网络都由一个ViT 主干的编码器和一个带有 3 层多层感知器 (MLP) 的投影头组成。
3.SMKD在类和patch级别上在类内跨试图中蒸馏知识。 L [ c l s ] L_{[cls}] L[cls] [ c l s ] [cls] [cls] 标记中蒸馏知识,而 L [ p a t c h ] L_{[patch]} L[patch] 通过找到具有最高相似度的匹配标记对(由红色虚线连接)的密集对应关系,从 [ p a t c h ] [patch] [patch] 标记中提取知识。

评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值