通用视觉-语言模型 CLIP

最新推荐文章于 2025-04-18 01:55:10 发布

AIM086

最新推荐文章于 2025-04-18 01:55:10 发布

阅读量1.3k

点赞数 15

分类专栏：大模型基础 Transformer 文章标签：语言模型人工智能自然语言处理 transformer

本文链接：https://blog.youkuaiyun.com/qq_43538018/article/details/144301042

版权

大模型基础同时被 2 个专栏收录

4 篇文章

订阅专栏

Transformer

2 篇文章

订阅专栏

CLIP (Contrastive Language-Image Pretraining) 是 OpenAI 提出的一个通用视觉-语言模型，通过对比学习方法在大规模图片-文本对数据集上进行预训练，旨在学习一个能够将图片和文本嵌入到共享语义空间中的模型。它能执行零样本（zero-shot）任务，比如图像分类、搜索、生成等。

CLIP 的核心贡献在于让图像和文本之间的语义信息高度对齐，从而可以利用自然语言对视觉内容进行高效描述、分类和推理。

1. CLIP 的结构与工作流程

CLIP 的架构由两个独立的编码器组成：

视觉编码器：用于处理图片，提取其视觉特征。可以基于传统卷积神经网络（如ResNet）或更先进的 Transformer 架构（如ViT）。
文本编码器：用于处理文本，提取其语义特征。使用的是 Transformer 架构，类似于 GPT 模型。

两者通过共享的对比学习损失函数在同一个嵌入空间中对齐。

嵌入过程：

图像处理：输入图片 $x_i$ 经过视觉编码器后生成嵌入向量 $f(x_i)$ 。
文本处理：输入文本 $t_i$ 经过文本编码器后生成嵌入向量 $g(t_i)$ 。
对齐目标：图片和对应的文本对 $x_i, t_i)$ 在嵌入空间中尽可能接近，图片与不相关文本对 $(x_i, t_j, j \neq i)$ 尽可能远离。

2. 对比学习的核心机制

CLIP 的学习目标是让模型在给定一对图片和文本时，能够区分哪个文本与该图片匹配。这通过一个对比损失函数实现。

给定一个批量大小为 $M$ 的图片-文本对 $x_i, t_i)$ ，CLIP 的损失函数包括两个部分：

图片到文本的对比损失： $L_{i \to t} = -\frac{1}{M} \sum_{i=1}^M \log \frac{\exp(\text{sim}(f(x_i), g(t_i))/\tau)}{\sum_{j=1}^M \exp(\text{sim}(f(x_i), g(t_j))/\tau)}.$
文本到图片的对比损失： $L_{t \to i} = -\frac{1}{M} \sum_{j=1}^M \log \frac{\exp(\text{sim}(g(t_j), f(x_j))/\tau)}{\sum_{i=1}^M \exp(\text{sim}(g(t_j), f(x_i))/\tau)}.$

总损失函数为： $L_{i \to t} + L_{t \to i}.$

其中， $\tau$ 是温度参数（详解见文章），用于调整分布的平滑程度。 $\text{sim}(\cdot, \cdot)$ 是嵌入向量的相似性计算，通常为内积或余弦相似度。

3. 训练数据

CLIP 的训练使用了一个包含 4 亿对图像-文本对 的大规模数据集。这些数据主要来自互联网，包含各种公开图像和与之相关的自然语言描述。这种海量多样的数据来源让 CLIP 学到了一种泛化能力，能够处理许多未知任务。

4. CLIP 的推理与应用

Zero-shot 推理：CLIP 的一个关键能力是零样本分类，即不需要为新任务额外训练数据，只需通过**文本提示（prompts）**定义目标类别。

具体流程：

定义新任务类别：假设要分类的类别为 “cat” 和 “dog”，为每个类别生成 文本提示，如：
- “This is a photo of a cat.”
- “This is a photo of a dog.”
计算类别嵌入：将每个 文本提示 $t_k$ 输入文本编码器，得到类别的 嵌入向量 $g(t_k)$ 。
计算图片与类别的相似度：对目标图片 $x$ ，计算其嵌入向量 $f (x)$ ，并与每个类别的嵌入向量 $g(t_k)$ 计算相似度： $\text{Similarity}(x, t_k) = \text{sim}(f(x), g(t_k)).$
预测类别：将图片归为相似度最高的类别。