【论文阅读】CLIP: 从自然语言监督中学习可迁移的视觉模型
文章目录
Learning Transferable Visual Models From Natural Language Supervision
(开山鼻祖CLIP不能不看)
最先进的计算机视觉系统被训练来预测一组固定的预定对象类别
这种受限制的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念
从原始文本中学习图像是一种有前途的替代方案
利用了更广泛的监督来源
我们证明了预测哪个标题与哪个图像搭配的简单预训练任务是一种有效且可扩展的方法
在4亿个数据集上从头开始学习SOTA图像表示(图像,文本)对从互联网上收集
自然语言用于引用学习到的视觉概念(或描述新的)使模型能够zero-shot转移到下游任务
对30多个不同的现有计算机视觉数据集进行基准测试
该模型可以轻松地转移到大多数任务中
通常与完全监督的基线竞争
无需任何数据集特定的训练
ImageNet zero-shot上匹配原始ResNet-50的准确性,而不需要使用它所训练的128万个训练示例中的任何一个
一、 介绍
直接从原始文本中学习的预训练方法已经彻底改变了NLP
自回归和掩蔽语言建模等与任务无关的目标已经在计算稳步提高能力
任务无关架构实现zero-shot传输到下游数据集,无需专门的输出头或数据集特定的定制
同时需要很少或不需要特定于数据集的训练数据
在网络规模的文本集合中,现代预训练方法可以获得的聚合监督超过了高质量的人力标记的NLP数据集
直接从网络文本中学习的可扩展的预训练方法是否会在计算机视觉中产生类似的突破?
(真的是天才)
- Mori et al(1999)通过训练一个模型来预测文本文档中与图像配对的名词和形容词,探索了改进基于内容的图像检索
- Quattoni et al(2007)证明,通过在训练用于预测与图像相关的标题中的单词的分类器的权重空间中进行流形学习,可以学习更多数据有效的图像表示
- Srivastava & Salakhutdinov(2012)通过在低级图像和文本标签特征之上训练多模态深度玻尔兹曼机来探索深度表示学习
- Joulin等人(2016)对这一系列工作进行了现代化,并证明了经过训练以预测图像标题中的单词的CNN可以学习有用的图像表示
- Li et al(2017)预测短语以及单个单词,并通过基于学习的视觉n-gram字典对目标类别进行评分并预测得分最高的类别,证明转移到其他图像分类数据集
最近展示了基于transformer的语言建模、掩蔽语言建模和对比目标从文本学习图像表示的潜力
虽然作为概念证明令人兴奋,但使用自然语言监督进行图像表示学习仍然很少见
Li et al(2017)在ImageNet上在zero-shot设置下仅达到11.5%的准确率,相反:
- Mahajan等人(2018)表明,预测Instagram图像上与ImageNet相关的主题标签是一种有效的预处理方法
- Kolesnikov et al(2019)和Dosovitskiy et al(2020)也通过预训练模型来预测噪声标记的JFT-300 M数据集的类别,在更广泛的传输基准集上取得了很大的收益
从有限数量的监督“金标签”学习和从几乎无限数量的原始文本学习之间
它们的监督分别

最低0.47元/天 解锁文章
1615

被折叠的 条评论
为什么被折叠?



