《Learning Transferable Visual Models From Natural Language Supervision》论文解读

论文原文链接:https://arxiv.org/pdf/2103.00020

简介

CLIP(Contrastive Language–Image Pre-training对比语言-图像预训练)提出了一种多模态对比学习框架,通过从互联网海量图像-文本对中学习视觉与语言的语义对齐,突破传统视觉模型依赖固定类别标签的局限。核心思想是:将图像分类转化为图文匹配任务,使用自然语言作为监督信号,在30个视觉任务上实现无需微调的零样本(zero-shot)迁移,性能媲美全监督模型(如ImageNet上76.2%准确率,与ResNet-76.1%相当)。

CLIP的核心是一个双塔神经网络

  • 图像编码器:将图片转换为特征向量(支持ResNet或Vision Transformer)。

  • 文本编码器:将文本描述转换为特征向量(基于Transformer)。

动机

传统视觉模型的三大痛点:

  • 标注成本高:依赖人工标注数据集(如ImageNet),难以扩展到细粒度任务;

  • 语义受限:固定类别标签丢失真实语义(如将"柯基犬"简化为类别ID);

  • 泛化性差:封闭类别系统无法适应新概念(如新兴物体或抽象属性)。

CLIP受目前语言模型的无监督(使用语言文本自身作为监督信号)取得较好效果的启发,在多模态领域是否也能够采用语言数据作为监督呢?CLIP突破的方向:

  • 利用互联网原生图文对(如网页alt-text)作为免费监督信号;

  • 通过语言引导的对比学习,构建开放词汇的视觉语义空间。

主要方法

(1)使用自然语言作为监督。

(2)构建足够大的预训练数据集。从互联网公开资源(如网页、社交媒体、公共数据库)爬取约 4亿(400M)个图像-文本对,覆盖广泛领域(自然图像、艺术作品、图表、新闻配图等)。

(3)一种高效的训练方法。从头开始训练CNN和文本Transformer。为了提高训练效率,不预测每幅图像内容的确切文字,而是整体文本与哪一副图像对应。通过这种方法比预测具体文本的方法提升了四倍的训练效率。通过联合训练一个图像编码器和一个文本编码器来构建一个多模态嵌入空间,以最大化批量中 N 个真实对之间的图像和文本嵌入之间的余弦相似度,同时最小化 N^2− N 个错误配对的嵌入之间的余弦相似度。只使用一个线性投影来映射每个编码器的表示到多模态嵌入空间,简单讲图像缩放为正方形(例如224 x 224或者336 x 336).

(4)选择调整模型。对于图像编码,考虑两种不同的架构:一种是采用ResNet-50为基础,采用antialiased rect-2 blur pooling,将注意力池化机制改文transformer风格的多头注意力机制。二是采用Vision Transformer (ViT),在transformer前为组合的patch和position嵌入添加了一个额外的layer归一化。对于文本编码,使用了一个参数为 63M、层数为 12、宽度为 512、注意力头数为 8 的transformer。作者发现将计算资源均匀分配给模型宽度、深度和图像分辨率的效果比将计算资源分配给单一维度的效果更好,所以作者将计算资源进行均分。对于文本编码器,作者只将模型的宽度缩放为其与计算出的 ResNet 宽度增长成比例,并且不缩小其深度,因为作者发现 CLIP 的性能对文本编码器的容量不太敏感。

(5)训练

(6)零样本推理的魔法:Prompt Engineering

要让训练好的CLIP识别新类别,只需将类别名称转化为自然语言描述(称为Prompt):

  • 基础版:"a photo of a {物体}"

  • 增强版:"a close-up photo of a {物体}, professional wildlife photography, 4K"

实验表明,使用80种Prompt模板集成推理,可将ImageNet准确率提升约3%。这相当于让模型从多角度“思考”语义,避免单一表述的偏差。

效果

在无须微调的zero-shot情况下取得非常好的效果,但对于许多复杂的问题能力不够。例如将黑猩猩、大猩猩、长臂猿和Black弄混。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值