对比学习（Contrastive Learning）方法详解

原创于 2025-06-11 21:54:53 发布 · 1k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#对比学习 #度量学习 #InfoNCE

对比学习专栏收录该内容

2 篇文章

订阅专栏

对比学习（Contrastive Learning）方法详解

对比学习（Contrastive Learning）是一种强大的自监督或弱监督表示学习方法，其核心思想是学习一个嵌入空间，在这个空间中，相似的样本（“正样本对”）彼此靠近，而不相似的样本（“负样本对”）彼此远离。

核心概念

目标：学习数据的通用、鲁棒、可迁移的表示（通常是向量/嵌入），而不需要大量的人工标注标签。
核心思想： “通过对比来学习”。模型通过比较数据点之间的异同来理解数据的内在结构。
关键元素：
- 锚点样本（Anchor）：一个查询样本。
- 正样本（Positive Sample）：与锚点样本在语义上相似或相关的样本（例如，同一张图片的不同增强视图、同一个句子的不同表述、同一段音频的不同片段）。
- 负样本（Negative Sample）：与锚点样本在语义上不相似的样本（例如，来自不同图片、不同句子、不同音频的样本）。
- 编码器（Encoder）：一个神经网络（如ResNet, Transformer），将输入数据（图像、文本、音频等）映射到低维嵌入空间 $\to z$ 。
- 相似度度量（Similarity Metric）：通常是余弦相似度 $sim(zi,zj)=(zi⋅zj)/(∣∣zi∣∣⋅∣∣zj∣∣)sim(z_i, z_j) = (z_i · z_j) / (||z_i|| \cdot ||z_j||)$ 或点积 $sim(zi,zj)=zi⋅zjsim(z_i, z_j) = z_i \cdot z_j$ ，用于衡量两个嵌入向量在嵌入空间中的接近程度。
基本流程：
1. 对输入数据应用数据增强，生成不同的视图（对于图像：裁剪、旋转、颜色抖动、模糊等；对于文本：同义词替换、随机掩码、回译等；对于音频：时间拉伸、音高偏移、加噪等）。
2. 使用同一个编码器 $f(⋅)f(\cdot)$ 处理锚点样本 $x$ 及其正样本 $x^+$ （通常是 $x$ 的一个增强视图），得到嵌入向量 $z$ 和 $z^+$ 。
3. 从数据集中采样或使用内存库/当前批次中获取一组负样本 ${x^-_1, x^-_2, ..., x^-_K}$ ，并通过 $f(⋅)f(\cdot)$ 得到对应的负嵌入向量 ${z^-_1, z^-_2, ..., z^-_K}$ 。
4. 计算锚点 $z$ 与正样本 $z^+$ 的相似度（应高），以及与每个负样本 $z^-_k$ 的相似度（应低）。
5. 定义一个对比损失函数（如InfoNCE）来最大化 $z$ 和 $z^+$ 之间的相似度，同时最小化 $z$ 和所有 $z^-_k$ 之间的相似度。
6. 通过优化这个损失函数来更新编码器 $f(⋅)f(\cdot)$ 的参数，使得相似的样本在嵌入空间中聚集，不相似的样本分离。

核心原理

对比学习的有效性建立在几个关键原理之上：

不变性学习： 通过对同一数据点的不同增强视图（正样本对）施加高相似度约束，编码器被迫学习对这些增强变换保持不变的特征（即数据的内在语义内容）。例如，一只猫的图像无论怎么裁剪、旋转、变色，编码器都应将其映射到相似的嵌入位置。
判别性学习： 通过将锚点与众多不同的负样本区分开来，编码器被迫学习能够区分不同语义概念的特征。这有助于模型捕捉细微的差异，避免学习到平凡解（例如，将所有样本映射到同一个点）。
最大化互信息： InfoNCE 损失函数（见下文）被证明是在最大化锚点样本 $x$ 与其正样本 $x^+$ 的嵌入 $z$ 和 $z^+$ 之间的互信息的下界。这意味着模型在学习捕捉 $x$ 和 $x^+$ 之间共享的信息（即数据的本质内容）。
避免坍缩（Collapse）： 对比学习面临的一个主要挑战是模型可能找到一个“捷径解”，将所有样本映射到同一个嵌入向量（坍缩到一个点）。负样本的存在、特定的损失函数设计（如 InfoNCE的分母项）、架构技巧（如预测头、非对称网络、动量编码器）都旨在防止这种坍缩。

关键损失函数

对比学习有多种损失函数形式，它们共享相同的目标，但在数学表述和侧重点上有所不同。

Contrastive Loss (成对损失/边界损失)

目标： Contrastive Loss 是对比学习中最基础的损失函数，处理成对样本（正样本对 / 负样本对），通过距离度量（欧氏距离或余弦相似度）约束特征空间的结构。
公式：
$\mathcal{L}_{contrastive}=y_{ij}\cdot d(f(x_i), f(x_j))^2+(1-y_{ij})\cdot max(0, margin-d(f(x_i), f(x_j)))^2$
- $d(⋅,⋅)d(\cdot, \cdot)$ 是距离度量（如欧氏距离）。
- margin 是一个超参数，强制执行正负样本对之间的最小差异。它定义了正负样本对在嵌入空间中应保持的最小“安全距离”。
特点：
- 非常直观，直接体现了对比学习的基本思想（拉近正对，推远负对）。
- 正样本对（ $y_{ij}=1$ ）：鼓励特征距离尽可能小（趋近于 0）。
- 负样本对（ $y_{ij}=0$ ）：若当前距离小于margin，则施加惩罚，迫使距离超过margin；若已大于margin，则不惩罚。
- 缺点：仅考虑成对关系，当负样本对距离远大于m时，梯度消失，学习效率低。

Triplet Loss (三元组损失)

目标：明确要求锚点到正样本的距离比到负样本的距离小至少一个边界 margin。
公式 (使用距离)：
$\mathcal{L}_{triplet} = max(0, d(z, z^+) - d(z, z^-) + margin)$
特点：
每次显式地处理一个三元组（锚点、正样本、负样本）。
对负样本采样敏感，特别是对“半困难”负样本（那些距离锚点比正样本远，但又在 margin 边界附近的负样本）能提供最有价值的梯度。
在大规模数据集上，如何高效挖掘有意义的（半）困难三元组是一个挑战。

InfoNCE (Noise-Contrastive Estimation) Loss (噪声对比估计损失,NT-Xent Loss)

目标：源于噪声对比估计（NCE），将对比学习转化为多分类问题：给定一个锚点 $x$ ，从包含一个正样本 $x^+$ 和 K 个负样本 ${x^-_1, ..., x^-_K}$ 的集合 ${x^+, x^-_1, ..., x^-_K}$ 中，识别出哪个是正样本 $x^+$ 。目标是最大化锚点 $x$ 与其正样本 $x^+$ 的互信息的下界。
公式：
$\mathcal{L}_{InfoNCE} = -\log \frac{exp(sim(z, z^+) / \tau)}{exp(sim(z, z^+) / \tau) + \sum_{k=1}^K exp(sim(z, z^-_k) / \tau)}$

等价于交叉熵损失，其中正样本为正类，负样本为负类，分类标签为 one-hot 向量。
NT-Xent (Normalized Temperature-scaled Cross Entropy) Loss是 InfoNCE 的一种具体实现形式，使用 L2 归一化的嵌入向量（即 ||z|| = 1）。

显式地引入温度系数 τ。

$sim(z_i, z_j)$ ：锚点嵌入 $z$ 与另一个样本嵌入 $z_j$ 的相似度（通常用余弦相似度）。
$τ\tau$ ：一个温度系数（Temperature），非常重要的超参数。它调节了分布的形状：
- $τ\tau$ 小：损失函数更关注最困难的负样本（相似度高的负样本），使决策边界更尖锐。
- $τ\tau$ 大：所有负样本的权重更均匀，分布更平滑。
- K：负样本的数量。
特点：
- 当前对比学习的主流损失函数。像 SimCLR, MoCo, CLIP 等里程碑式的工作都采用它。
- 形式上是一个 (K+1) 类的 softmax 交叉熵损失，其中正样本是目标类。
- 理论根基强：被证明是在最大化 $z$ 和 $z^+$ 之间互信息 $I(z; z^+)$ 的下界。
- 利用大量负样本：损失函数的分母项 $∑exp(sim(z,zk−)/τ)\sum exp(sim(z, z^-_k) / \tau)$ 要求模型同时区分锚点与多个负样本，这比只区分一个负样本（如 Triplet Loss）提供了更强的学习信号和更稳定的梯度。更多的负样本通常能带来更好的表示。
- 温度系数 $τ\tau$ 至关重要：需要仔细调整。合适的 $τ\tau$ 能有效挖掘困难负样本的信息。
- 计算成本随负样本数量K线性增加。MoCo 等模型通过维护一个大的负样本队列（动量编码器）来解决这个问题，使得 K 可以非常大（如 65536）而不显著增加每批次的计算量。
- 隐式地学习了一个归一化的嵌入空间（如果使用余弦相似度）。

总结对比

特征	Pair-wise/Triplet Loss	InfoNCELoss
核心思想	直接约束距离/相似度差异 (边界)	多类分类 (识别正样本) / 最大化互信息下界
样本关系	显式处理锚点-正样本-负样本三元组	锚点 vs. 1正样本 + K负样本
负样本数量	1 (per triplet)	K (通常很大, 几十到几万)
关键超参数	`margin`	温度系数 $τ\tau$
梯度来源	主要来自困难负样本	来自所有负样本 (权重由相似度和 $τ\tau$ 决定)
计算复杂度	相对较低 (每样本)	随K线性增加 (但MoCo等可高效处理大K)
理论根基	直观但理论较弱	强 (基于互信息最大化)
主流性	早期/特定应用 (如人脸)	当前主流 (SimCLR, MoCo, CLIP等)
防止坍缩机制	依赖负样本和margin	依赖大量负样本和分母项
表示空间	不一定归一化	通常L2归一化 (超球面)