目录
Conclusion, Limitations and Future Work
Abstract
像CLIP这样的大型预先训练的视觉语言模型在表征学习方面显示出巨大的潜力,这些表征可以在广泛的下游任务中迁移。与传统的基于离散化标签的表征学习不同,视觉语言预训练模型将图像和文本在一个共同的特征空间中对齐,允许通过 prompt 做 zero-shot 迁移到下游任务,分类权重是从我们感兴趣类别的自然语言描述中合成的。
这项工作中我们表明,在实践中部署此类模型的一个主要挑战是 prompt engineering,这需要相关领域专业知识,并且非常耗时——人们需要花费大量时间在单词调优上,因为单词的微小变化可能会对性能产生巨大影响,例如在类别前有无“a”;Prompt engineering还需要关于任务的先验知识:花朵、纹理、卫星等,如下图:(而且即使是做了大量的调整,最后的精度可能不是最优的)

受自然语言处理中prompt learning研究的最新进展的启发,我们提出了上下文优化CoOp(Context
CoOp是针对视觉语言预训练模型的一种上下文优化方法,通过学习的向量来建模提示,改进了如CLIP模型在图像识别等任务上的性能,尤其在few-shot学习中表现出色,同时具有良好的领域泛化能力。
订阅专栏 解锁全文
2015

被折叠的 条评论
为什么被折叠?



