文章目录
【ECCV 2022】《Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification》
\quad 先来说一些Few-shot 分类任务是干嘛的:在只有很少数量的训练样本(通常是很小的数据集,N-way K-shot)的情况下,模型需要对新的、未见过的类别进行分类。比如,在下图的Tip-Adapter网络结构中,输入是N-way K-shot的图像和labels(文本),将他们输入到网络中,需要对未见过的test image进行分类,也就是在这些类别中找到它属于的类别。
\quad 再来说一下CLIP-Adapter是怎么做的。与之前的prompt tuning(CoOp)方法不同,CLIP-Adapter提出用特征适配器来适应视觉语言模型。CLIP Adapter仅在视觉或语言主干的最后一层之后添加了两个额外的线性层,并通过残差连接将原始Zero-Shot视觉或语言嵌入与相应的网络调整特征混合。通过这种“残差样式混合”,CLIP Adapter可以同时利用原始CLIP中存储的知识 和来自Few-Shot训练样本的新学习的知识 。下图是CLIP-Adapter与之前方法的对比,Av()和At()是两个MLP,W和f分别是分别是CLIP生成的文本(label)特征和图像特征。两者经过MLP后再连接,之后再预测。可以看出,这个范式是需要训练的。

\quad Tip-Adapter这篇文章认为,CoOp和CLIP-Adapter为了fine-tuning参数,会引入额外的计算资源,因此本文的目的在于设计一种training-free的few-shot分类方法。

训练免费的Few-shot分类:Tip-Adapter与Meta-Adapter比较

文章探讨了如何在Few-shot分类任务中,通过无需训练的Tip-Adapter和在线学习的Meta-Adapter改进CLIP模型的性能。Tip-Adapter利用预训练模型和缓存知识,而Meta-Adapter则通过元学习机制减少过拟合,提供更广泛的泛化能力。
最低0.47元/天 解锁文章
4683

被折叠的 条评论
为什么被折叠?



