基于Adapter用CLIP进行Few-shot Image Classification

训练免费的Few-shot分类：Tip-Adapter与Meta-Adapter比较

最新推荐文章于 2025-02-19 16:30:21 发布

原创

最新推荐文章于 2025-02-19 16:30:21 发布 · 2.4k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉

文章探讨了如何在Few-shot分类任务中，通过无需训练的Tip-Adapter和在线学习的Meta-Adapter改进CLIP模型的性能。Tip-Adapter利用预训练模型和缓存知识，而Meta-Adapter则通过元学习机制减少过拟合，提供更广泛的泛化能力。

文章目录

【ECCV 2022】《Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification》
【NeuIPS 2023】《Meta-Adapter: An Online Few-shot Learner for Vision-Language Model》

【ECCV 2022】《Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification》

$\quad$ 先来说一些Few-shot 分类任务是干嘛的：在只有很少数量的训练样本（通常是很小的数据集，N-way K-shot）的情况下，模型需要对新的、未见过的类别进行分类。比如，在下图的Tip-Adapter网络结构中，输入是N-way K-shot的图像和labels（文本），将他们输入到网络中，需要对未见过的test image进行分类，也就是在这些类别中找到它属于的类别。
$\quad$ 再来说一下CLIP-Adapter是怎么做的。与之前的prompt tuning（CoOp）方法不同，CLIP-Adapter提出用特征适配器来适应视觉语言模型。CLIP Adapter仅在视觉或语言主干的最后一层之后添加了两个额外的线性层，并通过残差连接将原始Zero-Shot视觉或语言嵌入与相应的网络调整特征混合。通过这种“残差样式混合”，CLIP Adapter可以同时利用原始CLIP中存储的知识和来自Few-Shot训练样本的新学习的知识。下图是CLIP-Adapter与之前方法的对比，Av()和At()是两个MLP，W和f分别是分别是CLIP生成的文本（label）特征和图像特征。两者经过MLP后再连接，之后再预测。可以看出，这个范式是需要训练的。
在这里插入图片描述
$\quad$ Tip-Adapter这篇文章认为，CoOp和CLIP-Adapter为了fine-tuning参数，会引入额外的计算资源，因此本文的目的在于设计一种training-free的few-shot分类方法。