论文信息:
Under review as a conference paper at ICLR 2023
Tsinghua University
arxiv: https://arxiv.org/abs/2210.04287
目录:
Comparison to existing methods
Motivation
像 CLIP 这样的预训练视觉语言模型的在学习可迁移视觉表征方面的巨大潜力。但对于下游任务,CLIP 模型在通过检索类名 (ZSL) 进行推理时,会出现以下问题:
1、在基于检索的推理过程中,如果文本描述不准确,准确性和鲁棒性会下降(对文本描述敏感):
这种敏感性可以通过修改类名来观察,比如对于 CIFAR-10 上的 zero-shot 推理,当使用原始类名时,CLIP 获得了 63.7% 的准确率。但是简单地用合适的同义词替换或扩展类名(eg: 用"plane” and “car” rather than “airplane” and “automobile”)可以将准确率提高到