clip预训练模型综述

原创

已于 2022-08-28 10:45:49 修改 · 2.1w 阅读

178 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #深度学习

于 2022-08-27 15:57:37 首次发布

CLIP是一种多模态预训练模型，能基于文本描述对图片进行分类，解决了视觉模型训练中的数据集昂贵、适用单一任务及实际应用性能不佳等问题。

什么是CLIP

Title: Learning transferable visual models from natural language supervision

paper：https://arxiv.org/pdf/2103.00020

代码：https://github.com/OpenAI/CLIP

2021开年，顶着地表最强语言模型GPT-3的光环，OpenAI在自然语言处理领域一路高歌猛进，于昨日推出两个跨越文本与图像次元的模型：DALL·E和CLIP，前者可以基于文本生成图像，后者则可以基于文本对图片进行分类，两者都意在打破自然语言处理和计算机视觉两大门派“泾渭分明”的界限，实现多模态AI系统。CLIP是一个预训练模型，就像BERT、GPT、ViT等预训练模型一样。首先使用大量无标签数据训练这些模型，然后训练好的模型就能实现，输入一段文本（或者一张图像），输出文本（图像）的向量表示。CLIP和BERT、GPT、ViT的区别在于，CLIP是多模态的，包含图像处理以及文本处理两个方面内容，而BERT、GPT是单文本模态的，ViT是单图像模态的。

作者提出CLIP的动机

1.现有CV模型大多都只能预测已知的图像类别，对于没有见过的图像类别，需要额外的信息才能识别。那么文本其实就提供了这样的额外信息。所以利用图像对应的文本数据，也许就能使模型能够分辨未见类的图像。

2.最近NLP领域中出现的BERT、GPT等预训练模型表明，用大规模的无监督数据训练模型，可以在多个下游NLP任务上获得非常好的结果，有些甚至超过使用人工标注的数据训练出的模型。而现有的CV模型基本都是基于人工标注的数据集训练的（比如ImageNet），那么仿照NLP中预训练模型，如果使用大量无监督（也就是非人工标注）的图像，CV模型能否实现突破呢？

3.目前也有很多研究者注意到natural language在CV中的作用，并尝试利用起来。但是实际的实验结果通常低于其他特殊设计的使用有监督数据的模型。但是作者认为，他们在CV模型中加入natural language数据后实际结果不够好的原因可能是数据规模仍然不够大，而不是natural language数据对CV无用。

CLIP的预训练数据是什么？

预训练数据是作者新构建的WIT数据集。鉴于现有CV数据集仍然不够大，且很少包含足够的natural language数据（大多CV数据集中的文本数据只是图像的类别指示，比如dog，cat等单词），所

最低0.47元/天解锁文章

4 条评论

QDDD_OUCer 2023.10.28
你好，我想问一下，对于CLIP，为什么训练的数据已经是配好对的图片和文本，其预训练的任务还是预测给定的图像和文本是否是一对？这个给定的图像和文本是训练数据里面的还是在训练数据之外的？
- 今天代码写我了吗回复QDDD_OUCer 2024.03.23
  个人理解是因为图像和文本的配对是一个预训练任务，通过预训练来训练encoder（）
- 羁.217回复QDDD_OUCer 2023.10.29
  openai自己搞了一个4亿的数据集，这个数据集本身就是已经匹配好的文本-图片对，所以进行预训练的时候直接使用该数据集