【论文阅读】CLIP:Learning Transferable Visual Models From Natural Language Supervision

根据题目,我们发现有两个关键字,一个是自然语言,另一个是可迁移性
目的就是想通过建立与语义之间的联系学一个泛化性很好的视觉模型!

总体方法

  1. 对比学习联合训练一个图像特征提取器和一个文本特征提取器
  2. 零样本预测:给定图像,通过图像特征提取和通过模板和类别构成的文本特征进行coisine 相似度比对

在这里插入图片描述

效果

在ImageNet上零样本预测精度很高,且迁移效果很好,有很强的语义性,证明了其与我们的语义世界产生了很强的联系
在这里插入图片描述
还引发了很多有趣的工作,例如StyleCLIP,CLIPDraw,Object Dection via knowledge
(open - vocabulary)

相关工作

NLP 中的 Text-to-Text 的模型使得我们不需要去专门设计输出头去完成相应的下游任务
而在CV领域这样的工作却很少见,更多的还是在有监督的数据集上进行固定类别的分类训练,有个别工作尝试去做无监督的zero-shot但是由于缺少大规模的数据集等原因,导致了其效果极差,没能够引起大家的热情。
而本篇论文就是去close this gap,将数据集推到足够大,来展现这种方法的惊人效果。

数据集构建

工作在自然语言上的方法可以被动地从互联网上海量文本中蕴含的监督中学习,数据更容易收集。
目前有MS-COCO,Visual Genome都是高质量的人群标注数据集,但是规模太小。
YF

<think>好的,用户正在寻找论文《Learning Transferable Visual Models From Natural Language Supervision》的源代码,特别是GitHub仓库。根据之前的引用内容,特别是引用[1]提到“我们在此https://github.com/OpenAI/CLIP上发布我们的代码和预训练模型权重”,可以直接确认源代码位于OpenAI的GitHub仓库。需要确保提供的链接正确,并且可能还需要补充一些相关信息,比如安装方法、使用示例等,以帮助用户更好地使用代码。此外,用户可能对CLIP模型的应用或如何运行示例代码感兴趣,可以生成相关问题。</think>论文《Learning Transferable Visual Models From Natural Language Supervision》(即CLIP模型)的官方代码已由OpenAI开源,其GitHub仓库地址为: https://github.com/openai/CLIP [^1] 该仓库包含以下核心内容: 1. 模型实现:基于PyTorch的CLIP双编码器架构 2. 预训练权重:提供ResNet和Vision Transformer系列模型的预训练参数 3. 使用示例:包含零样本分类、特征提取等典型应用场景的代码示例 安装方法: ```bash pip install git+https://github.com/openai/CLIP.git ``` 零样本分类示例代码: ```python import clip import torch from PIL import Image device = "cuda" if torch.cuda.is_available() else "cpu" model, preprocess = clip.load("ViT-B/32", device=device) image = preprocess(Image.open("image.jpg")).unsqueeze(0).to(device) text = clip.tokenize(["cat", "dog", "bird"]).to(device) with torch.no_grad(): image_features = model.encode_image(image) text_features = model.encode_text(text) logits_per_image, logits_per_text = model(image, text) probs = logits_per_image.softmax(dim=-1).cpu().numpy() print("Label probabilities:", probs) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值