系列文章目录
论文细节理解
-
预训练的视觉语言(V-L)模型,如CLIP,已经显示出对下游任务的出色泛化能力。然而,它们对输入文本提示的选择很敏感,需要仔细选择提示模板才能良好地执行。受自然语言处理(NLP)文献的启发,最近的CLIP适应方法将提示作为文本输入来学习,以微调CLIP用于下游任务。我们注意到,使用提示来适应CLIP(语言或视觉)的单个分支中的表示是次优的,因为它不允许在下游任务上动态调整两个表示空间的灵活性。这段话中“它不允许在下游任务上动态调整两个表示空间的灵活性。”什么意思
这段话中的“它不允许在下游任务上动态调整两个表示空间的灵活性”指的是,当前的方法在适应CLIP模型时,通常只调整语言分支或视觉分支中的一个表示空间,而不是同时调整两个表示空间。由于CLIP模型是一个多模态模型,它将视觉和语言表示融合在一起以执行各种任务。如果我们只调整其中一个分支(如视觉或语言)来适应某个特定任务,这就限制了另一个分支的灵活性,导致模型在下游任务中不能充分利用两种表示空间的动态调整能力。换句话说,当前的方法可能只优化语言提示或视觉表示中的一个,而不是在任务需求的基础上同时优化和协调这两者。这种单一分支的调整方式限制了模型在适应新任务时的表现,因为它不能灵活地调节两个表示空间(视觉和语言)的互相作用。要在下游任务中取得更好的效果,需要一种能够动态调整和优化两个表示空间的方法,而不仅仅是对单个分支进行调整。 -
基础视觉语言(V-L)模型,如CLIP(对比图像预训练)[32]已经显示出对下游任务的出色泛化能力。这种模型经过训练,以在网络规模的数据上对齐语言和视觉模态,例如,CLIP中有4亿个文本图像对。由于自然语言提供了丰富的监督,这些模型可以推理开放词汇的视觉概念。在推断期间,使用手工设计的文本提示,比如’‘a photo of a '作为查询文本的编码器。将输出文本嵌入与来自图像编码器的视觉嵌入进行匹配以预测输出类。设计高质量的上下文提示已被证明可增强CLIP和其他V-L模型的性能[17,42]。这段话中“这些模型可以推理开放词汇的