系列论文研读目录
文章目录
摘要
像CLIP这样的大型预训练视觉语言模型在学习表示方面表现出了巨大的潜力,这些表示可以在广泛的下游任务中转移。与传统的主要基于离散化标签的表示学习不同,视觉语言预训练将图像和文本在一个共同的特征空间中对齐,这允许通过提示将zero-shot转移到下游任务,即,从描述感兴趣的类别的自然语言合成分类权重。在这项工作中,我们表明,在实践中部署此类模型的一个主要挑战是提示工程,这需要领域专业知识,并且非常耗时-需要花费大量时间进行文字调整,因为措辞的轻微变化可能会对性能产生巨大影响。受自然语言处理(NLP)中提示学习研究的最新进展的启发,我们提出了上下文优化(CoOp),这是一种简单的方法,专门用于适应下游图像识别的CLIP类视觉语言模型。具体地说,CoOp用可学习的向量对提示语的上下文单词进行建模,而整个预训练参数保持固定。为了处理不同的图像识别任务,我们提供了两种CoOp实现:统一上下文和类特定上下文。通过对11个数据集的广泛实验,我们证明了CoOp只需要一个或两个镜头就能以可观的利润击败手工制作的提示,并且能够在更多镜头的提示工程上获得显着的改进,例如,16 shots的平均增益约为15%(最高可达45%以上)。尽管是一种基于学习的方法,但与使用手工提示的zero-shot模型相比,CoOp实现了出色的域泛化性能。
1 简介
- 用于构建现有技术的视觉识别系统的常见方法是训练视觉模型以使用离散标签来预测固定的对象类别集合(He等人,2016年; Dosovitskiy等人,2021年)的报告。从技术的观点来看,这是通过匹配图像特征来实现的,该图像特征是由像ResNet这样的视觉模型产生的(He等人,2016)或ViT(Dosovitskiy等人,2021)-这些权重被视为视觉概念并随机初始化。尽管训练类别通常有文本形式,如“gold fish”或“toilet paper”,但它们将被转换为离散的标签,只是为了简化交叉熵损失的计算,从而使封装在文本中的语义在很大程度上未被利用。这种学习范式将视觉识别系统局限于封闭的视觉概念,使其无法处理新的类别,因为学习新的分类器需要额外的数据。
- 最近,视觉语言预训练,例如CLIP(拉德福等人,2021)和ALIGN(Jia等人,2021)已经成为视觉表征学习的一种有前途的替代方法。其主要思想是使用两个独立的编码器来对齐图像和原始文本–每种模式一个。例如,CLIP和ALIGN都将学习目标表述为对比丢失,其将图像及其文本描述拉在一起,同时推开特征空间中的不匹配对。通过大规模的预训练,模型可以学习不同的视觉概念,并且可以通过提示容易地转移到任何下游任务(拉德福等人,2021年; Jia等人,2021年; Füurst等人,2021年; Li等人,2021年; Singh等人,2021年; Yuan等人,2021年)的报告。具体地,对于任何新的分类任务,可以首先通过将描述任务相关类别的句子给予文本编码器来合成分类权重,然后与由图像编码器产生的图像特征进行比较。
- 我们观察到,对于预先训练的视觉语言模型,文本输入,即提示,在下游数据集中起着关键作用。然而,确定正确的提示是一项重要的任务,它通常需要花费大量的时间来调整措辞-措辞上的细微变化可能会对性能产生巨大的影响。例如,对于Caltech 101(图1(a),第二个与第三个提示符),在类标记前添加“a”会使准确性提高5%以上。此外,即时工程还需要有关任务的先验知识,理想情况下还需要语言模型的底层机制。这在图1(b-d)中举例说明,其中添加任务相关的上下文可以导致显著的改进,即,对于Flowers 102为“花”,对于DTD为“纹理”,对于EuroSAT为“卫星”。调整句子结构可带来进一步的改进,在Flowers 102的类标记之后放置“一种花”,在DTD的上下文中仅保留“纹理”,并在EuroSAT的“卫星照片”之前添加“居中”。但是,即使进行了大量的调整,也不能保证得到的提示对于这些下游任务来说是最佳的。

- 受最近自然语言处理(NLP)中的即时学习研究的启发(Shin等人,2020年; Jiang等人,2020年; Zhong等人,2021),我们提出了一种称为上下文优化(CoOp)1的简单方法来自动化提示工程,特别是针对预训练的视觉语言模型。具体地说,CoOp用可学习的向量对提示语的上下文单词进行建模,这些向量可以用随机值或预训练的单词嵌入进行初始化(参见图2)。提供了两种实现来处理不同性质的任务:一种是基于统一上下文的,它与所有类共享相同的上下文,并且在大多数类别上都能很好地工作;而另一种是基于特定于类的上下文,它为每个类学习一组特定的上下文令牌,并且被发现更适合于一些细粒度的类别。在训练过程中,我们简单地使用关于可学习上下文向量的交叉熵损失来最小化预测误差,同时保持整个预训练参数固定。梯度可以通过文本编码器一直反向传播,提取参数中编码的丰富知识,用于学习任务相关的上下文。
- 为了证明CoOp的有效性,我们对11个数据集进行了基准测试,这些数据集涵盖了一系列不同的视觉识别任务,包括对通用对象、场景、动作和细粒度类别的分类,以及识别纹理和卫星图像等专门任务。结果表明,CoOp能够有效地将预先训练好的视觉语言模型转化为数据高效的视觉学习器,只需one or two shots就能以相当大的优势击败手工制作的提示。通过使用更多的shot,在16次shot的情况下,超过手工制作的提示的利润率平均在15%左右,并且最高达到45%以上。CoOp也优于线性探针模型,其被称为强的few-shot学习基线(Tian等人,2020年)的报告。此外,尽管是一种基于学习的方法,但CoOp对域转换的鲁棒性比zero-shot模型(使用手动提示)强得多。
- 总的来说,我们做出了以下贡献:
1.我们提出了一项关于在下游应用中调整最近提出的视觉语言模型的及时的研究,并确定了与部署效率相关的一个关键问题,比如,提示工程 2.为了实现针对预训练的视觉语言模型的提示工程的自动化,我们提出了一种基于连续提示学习的简单方法,并提供了两种可以处理不同识别任务的实现。3.我们首次证明了所提出的基于即时学习的方法在大型视觉语言模型的下游迁移学习性能和域转移下的鲁棒性方面优于手工制作的提示和线性探测模型。4.我们在

最低0.47元/天 解锁文章
947

被折叠的 条评论
为什么被折叠?



