CLIP:利用自然语言的监督信号学习可迁移的视觉模型
(2)和(3)为模型做zero-shot推理的结构图,分类最后使用图片特征和文本特征计算余弦相似性,把相关性最大的句子挑出来,即完成分类。,基于对比图片-文本对的预训练模型或方法。CLIP是一种基于对比学习的多模态模型,通过多模态的图文任务,学习到图片和文字的匹配关系,进而实现图片zero shot的识别能力。通过输入的训练数据是图片-文本对(图片和它对应的文本描述),学习文本图像的匹配关系。训练集:4亿个图片和文本的配对,数据集清理的非常好。上图中的(1)为模型预训练结构图,其中。
原创
2024-02-27 21:34:58 ·
855 阅读 ·
0 评论