论文笔记:Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling详解

提出Tip-Adapter,一种无需训练的CLIP自适应方法,通过构建缓存模型进行few-shot分类,性能媲美训练方法。Tip-Adapter-F通过微调进一步提升性能。

论文:https://arxiv.org/abs/2111.03930

代码:GitHub - gaopengcuhk/Tip-Adapter

摘要

对比性视觉语言预训练模型,即CLIP,为使用大规模图像-文本对学习视觉表征提供了一个新的范式。它通过zero-shot(zero-shot和clip请看我的另一篇博客)知识迁移,在下游任务中表现出令人印象深刻的性能。近段时间以来,为了进一步提高CLIP在下游任务的适应能力,现有的方法提出了对额外的可学习模块进行微调,这极大地提高了few-shot的性能,但也因此引入了额外的训练时间和计算资源。

在Tip-Adapter中,作者为CLIP提出了一种免训练的适应性方法,以进行few-shot分类,它不仅继承了零点CLIP的免训练优势,而且性能与那些需要训练的方法相当。Tip-Adapter通过一个键值缓存模型从几张照片的训练集中构建适配器,并通过特征检索更新CLIP中编码的先验知识。此外,在此基础上,通过对缓存模型的微调,Tip-Adapter的性能可以进一步提升到ImageNet上的最先进水平,比现有的方法少10倍的epochs,这既有效又高效。

介绍

在16-shot的ImageNet上,不同方法的分类准确率(%)和时间效率的比较,论文提出的Tip-Adapter和Tip-AdapterF在准确率-效率的权衡上取得了优势。作者所有的实验都是在单个NVIDIA GeForce RTX 3090 GPU上以32个批次的规模进行测试。蓝色的一栏记录了相对于zero-shot的CLIP的性能增益。

背景

由于视觉和语言通常包含互补的信息,多模态表征的联合学习已被证明在各种任务中相当有效,如视觉问答和图像生成。与之前在不同的数据集上独立学习视觉和语言表征的方法不同,CLIP提出了从成对的自然语言监督中学习可迁移的视觉特征,并发挥了惊人的zero-shot图像分类能力。

许多后续的工作都提出要利用少数照片数据来提高CLIP在下游任务上的适应能力。最近,CLIP-Adapter引入了为CLIP配备一个参数化的特征适配器,并通过残差连接将它们与原始的CLIP编码的特征相结合。它在不利用提示设计的情况下,为zero-shot的分类展示了强大的性能。但是在微调下游任务的同时,CLIP-Adapter也需要更多的计算资源来微调新引入的可学习参数。

基于此,本论文提出了以下问题:我们能否实现两全其美,既利用CLIP的免训练特性进行零点分类,又享受少点分类中需要训练的方法的强大性能?

答案肯定是可以的,Tip-Adapter用一种新的非参数适配器来附加权重冻结的CLIP模型。与CLIP-Adapter不同,该方法不需要额外的训练,而是把适配器设计成一个来自少数照片数据集的查询键缓存模型(下文提到)。具体来说,Tip-Adapter提取了Tip-Adapter的视觉特征,通过CLIP的视觉编码器提取CLIP的视觉特征,并将其相应的标签转换为独热编码。然后,一个包含few-shot的视觉特征和独热编码标签的键值对缓存模型被创建。

推理过程

在推理过程中,用来测试的图片首先计算其与缓存模型中键的特征相似性(这里解释一下,就是提取的图片特征,就是提取的文本独热编码的信息),然后聚集缓存模型中的值形成适配器的预测,这可以被视为从缓存模型中检索出的少数的知识。之后,适配器的预测通过残差连接与原始CLIP的预测相结合。通过这种方式,Tip-Adapter同时利用了预先训练好的CLIP和少量训练数据集的知识。令人惊讶的是,未经训练的Tip-Adapter可以与微调的CLIP-Adapter的性能相当。此外,如果我们将缓存模型的键解冻为可学习的参数并进一步微调,Tip-Adapter的性能只需几个训练轮数就能得到显著提升。我们把这个微调版本称为Tip-Adapter-F,与CoOp和CLIP-Adapter采用的200个epoch相比,它在ImageNet上只需要20个epoch就能达到最先进的水平。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值