基于Adapter用CLIP进行Few-shot Image Classification

训练免费的Few-shot分类:Tip-Adapter与Meta-Adapter比较
文章探讨了如何在Few-shot分类任务中,通过无需训练的Tip-Adapter和在线学习的Meta-Adapter改进CLIP模型的性能。Tip-Adapter利用预训练模型和缓存知识,而Meta-Adapter则通过元学习机制减少过拟合,提供更广泛的泛化能力。


【ECCV 2022】《Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification》

\quad 先来说一些Few-shot 分类任务是干嘛的:在只有很少数量的训练样本(通常是很小的数据集,N-way K-shot)的情况下,模型需要对新的、未见过的类别进行分类。比如,在下图的Tip-Adapter网络结构中,输入是N-way K-shot的图像和labels(文本),将他们输入到网络中,需要对未见过的test image进行分类,也就是在这些类别中找到它属于的类别。
\quad 再来说一下CLIP-Adapter是怎么做的。与之前的prompt tuning(CoOp)方法不同,CLIP-Adapter提出用特征适配器来适应视觉语言模型。CLIP Adapter仅在视觉或语言主干的最后一层之后添加了两个额外的线性层,并通过残差连接将原始Zero-Shot视觉或语言嵌入与相应的网络调整特征混合。通过这种“残差样式混合”,CLIP Adapter可以同时利用原始CLIP中存储的知识 和来自Few-Shot训练样本的新学习的知识 。下图是CLIP-Adapter与之前方法的对比,Av()和At()是两个MLP,W和f分别是分别是CLIP生成的文本(label)特征和图像特征。两者经过MLP后再连接,之后再预测。可以看出,这个范式是需要训练的。
在这里插入图片描述
\quad Tip-Adapter这篇文章认为,CoOp和CLIP-Adapter为了fine-tuning参数,会引入额外的计算资源,因此本文的目的在于设计一种training-free的few-shot分类方法。
在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值