多模态论文一：CLIP模型主要内容讲解【原理+代码】

最新推荐文章于 2025-11-22 10:52:14 发布

原创

最新推荐文章于 2025-11-22 10:52:14 发布 · 8.8k 阅读

60 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #ai #人工智能 #多模态 #CLIP

一、CLIP模型主要内容讲解

CLIP（Contrastive Language-Image Pre-training）是OpenAI在2021年发布的一种用于图像和文本联合表示学习的模型。CLIP的核心思想是通过对比学习来预训练一个模型，使其能够理解图像和文本之间的关系。以下是CLIP的工作原理和步骤：

1. 数据集

CLIP使用大规模的图像-文本对数据集进行预训练，例如从互联网上收集的4亿个图像-文本对。这些数据集包含了丰富的图像和对应的描述文本，使得模型能够学习到广泛的视觉概念和语言表达。

2. 模型架构

CLIP由两个主要部分组成：

图像编码器：用于将图像转换为特征向量。图像编码器可以是卷积神经网络（如ResNet）或Transformer模型（如ViT）。
文本编码器：用于将文本转换为特征向量。文本编码器通常是一个Transformer模型。

3. 对比学习

CLIP通过对比学习来训练模型。具体来说，对于一个批次中的每个图像-文本对，模型会计算图像和文本的特征向量，并使用对比损失函数来优化模型参数。对比损失函数的目标是使得匹配的图像-文本对的特征向量尽可能接近，而不匹配的图像-文本对的特征向量尽可能远离。

4. 损失函数

CLIP使用的损失函数是对称的对比损失函数。具体来说，对于每个图像-文本对，模型会计算两个方向的损失：

图像到文本的损失：计算图像特征向量和文本特征向量之间的相似度，并优化使得匹配的图像-文本对的相似度最大化。
文本到图像的损失：计算文本特征向量和图像特征向量之间的相似度，并优化使得匹配的文本-图像对的相似度最大化。

5. 推理阶段

在推理阶段，CLIP可以用于多种任务，例如：

图像分类：给定一个图像，模型可以将其特征向量与预定义的文本类别（如“猫”、“狗”等）的特征向量进行比较，选择相似度最高的类别作为预测结果。
文本到图像检索：给定一个文本描述，模型可以将其特征向量与图像库中的图像特征向量进行比较，检索出与文本描述最匹配的图像。

二、动机

在计算机视觉领域，迁移学习的一种常见做法是先在如ImageNet这样的大规模数据集上进行预训练，然后在具体的下游任务上进行微调。这种预训练通常基于有监督学习，需要大量的数据标注，因此成本较高。近年来，随着自监督学习方法的兴起，这一局面得到了改变。自监督学习方法，包括基于对比学习的方法如MoCo和SimCLR，以及基于图像掩码的方法如MAE和BeiT，它们的优势在于不再依赖于数据标注。然而，无论是传统的监督学习还是新兴的自监督学习，它们在迁移到下游任务时，仍然需要进行有监督的微调，无法实现真正的零样本学习（Zero-shot）。
对于有监督模型而言，由于它们在预训练数据集上使用了固定类别数的分类器，因此在新的数据集上需要重新定义分类器并进行训练。而对于自监督模型，虽然代理任务有助于表征学习，但在迁移到其他数据集时，同样需要添加新的分类器进行有监督训练。
相比之下，在自然语言处理（NLP）领域，基于自回归或语言掩码的预训练方法已经相当成熟，并且预训练模型能够轻松实现零样本迁移到下游任务，例如OpenAI的GPT-3。这种差异一方面源于文本和图像这两种完全不同的模态，另一方面则是因为NLP模型可以利用互联网上丰富多样的文本数据。
这就引出了一个问题：我们能否利用互联网上的大量文本来预训练视觉模型，从而实现类似NLP领域的零样本迁移能力？这一问题的探讨，不仅涉及跨模态学习的深入研究，也为视觉模型的预训练和迁移学习开辟了新的可能性。
所以openai基于前面的工作，从文本信息获取监督信息的方式，做了以下两件事：1.足够大的数据集（爬取清洗了4亿对图像文本对），2.多模态（图像跟文本），统一用transformer架构，使用对比学习训练。
在这里插入图片描述
蓝色是回归预测，也就是根据图像去预测对应的文本标签，这个任务难度是巨大的，而且一个图像可以有多个文本表述范式；橘黄色是在特诊空间进行预测，根据图像特征去预测文本特征。绿色是图像-文本匹对的损失，这个是最快收敛的，任务相对简单。同时这样的设置可以更好地将图像与文本的语义信息绑定到一起。

三、模型

在这里插入图片描述

1. 训练过程

伪代码
在这里插入图片描述

2. 模型细节

这里的image encoder可以是ResNet也可以是ViT；text encoder可以是CBOW也可以是Transformer。
图像、文本分别经过encoder之后得到的特征，会进行线性投影以及L2归一化操作。
L2 归一化（L2 normalization）是一种常见的数据预处理技术，用于将数据向量的长度缩放到单位范数（即 L2 范数为 1）。对于一个向量 $v=[v1,v2,…,vn]\mathbf{v} = [v_1, v_2, \ldots, v_n]$ ，其 L2 范数定义为：
$∥v∥2=v12+v22+⋯+vn2\|\mathbf{v}\|_2 = \sqrt{v_1^2 + v_2^2 + \cdots + v_n^2}$
L2 归一化后的向量 $v′\mathbf{v}'$ 计算如下：
$v′=v∥v∥2=[v1∥v∥2,v2∥v∥2,…,vn∥v∥2]\mathbf{v}' = \frac{\mathbf{v}}{\|\mathbf{v}\|_2} = \left[ \frac{v_1}{\|\mathbf{v}\|_2}, \frac{v_2}{\|\mathbf{v}\|_2}, \ldots, \frac{v_n}{\|\mathbf{v}\|_2} \right]$

最低0.47元/天解锁文章