自监督学习在视觉表征学习中的前沿进展:从对比学习到生成式建模**
目录
### **3. 对比学习(Contrastive Learning)**
### **4. 掩码图像建模(Masked Image Modeling, MIM)**
**摘要**:
深度学习的成功严重依赖大规模标注数据,而数据标注成本高昂且难以扩展。自监督学习(Self-Supervised Learning, SSL)作为一种能够从无标注数据中学习强大表征的范式,近年来取得了革命性进展,极大地缩小了与有监督学习在 downstream 任务上的性能差距。本文系统性地回顾了自监督视觉表征学习的前沿进展,重点剖析了以对比学习(Contrastive Learning)和掩码图像建模(Masked Image Modeling, MIM)为代表的两大主流技术路线。我们首先阐述了自监督学习的核心思想与理论基础;随后,深入分析了对比学习中的实例判别、动量编码器、以及避免“表征坍塌”等关键机制;接着,详细讨论了掩码图像建模如何借鉴自然语言处理中的成功经验,并通过重构任务学习视觉表征。最后,本文对当前技术面临的挑战进行了总结,并对未来研究方向进行了展望,包括多模态融合、统一框架构建、以及理论深化等。
**关键词**: 自监督学习;视觉表征学习;对比学习;掩码图像建模;Transformer;无标注数据
---
### **1. 引言**
视觉表征学习是计算机视觉领域的核心问题,其目标是从原始像素中提取高层、抽象、具有语义信息的特征,为图像分类、目标检测、语义分割等下游任务提供基础。长期以来,监督学习在ImageNet等大型标注数据集上取得了巨大成功。然而,其对人工标注的依赖极大地限制了其在更广泛场景中的应用,因为标注数据成本高昂、周期长,且难以覆盖所有长尾类别。
自监督学习为解决这一问题提供了极具前景的方案。其核心思想是**从不包含人工标注的原始数据本身构造 supervisory signals(监督信号)**,通过设计合理的预训练任务(Pretext Task),让模型学习数据的内在结构和规律。近年来,随着对比学习和掩码图像建模等突破性技术的出现,自监督学习在ImageNet等基准数据集上的线性探测(Linear Probing)和微调(Fine-tuning)性能已逼近甚至在某些方面超越有监督学习,标志着视觉表征学习进入了一个新的时代。
本文旨在对自监督视觉表征学习的前沿进展进行系统性梳理。我们将聚焦于推动这一领域发展的两大核心动力:**对比学习**和**掩码图像建模**,分析其机理、优势与局限,并探讨未来的发展趋势。
### **2. 自监督学习的核心思想与分类**
自监督学习的流程通常分为两个阶段:
1. **预训练阶段**:在大量无标注数据上,通过求解预训练任务来学习通用视觉表征。
2. **迁移阶段**:将预训练好的模型迁移到下游任务(如分类、检测),通常只需使用少量标注数据进行线性评估或微调。
根据预训练任务的设计,主流方法可分为以下几类:
* **基于生成式的方法**:通过学习生成或重构输入数据来学习表征,如变分自编码器(VAE)、生成对抗网络(GAN)。
* **基于对比学习的方法**:通过拉近相似样本(正样本对)、推远不相似样本(负样本对)来学习表征。
* **基于掩码图像建模的方法**:随机掩码输入图像的部分块,并通过预测被掩码的内容来学习表征。
其中,后两类是当前最前沿、最有效的方法,本文将重点讨论。
### **3. 对比学习(Contrastive Learning)**
对比学习的核心是**在表征空间中学习区分数据点**。其关键思想源于“通过对比来认知”的哲学观念。
#### **3.1 基本框架与InfoNCE损失**
对比学习的基本单元是样本对。对于一个锚点样本 $x$,通过数据增强(如随机裁剪、颜色抖动)得到其正样本 $x^+$, batch 内的其他样本则被视为负样本 $x^-$。模型 $f_\theta$(通常是一个编码器网络)将样本映射为表征向量。
其目标是使 $x$ 和 $x^+$ 的表征相似度最大化,而使 $x$ 和所有 $x^-$ 的表征相似度最小化。通常使用归一化的余弦相似度 $sim(u, v) = u^T v / (||u|| ||v||)$来衡量。
最常用的损失函数是 **InfoNCE**:
$$
\mathcal{L}_{InfoNCE} = -\log \frac{\exp(\text{sim}(z, z^+) / \tau)}{\sum_{k=1}^N \exp(\text{sim}(z, z_k) / \tau)}
$$
其中,$z = f_\theta(x)$,$\tau$ 是温度超参数,$N$ 是负样本的数量。该损失本质上是最大化互信息下界。
#### **3.2 关键技术进展**
1. **实例判别(Instance Discrimination)**:MoCo 和 SimCLR 等工作将每个图像本身视为一个独立的类别,通过数据增强来构造正样本对。这使得模型能够学习到对几何和光度变化不变的特征。
2. **动量编码器(Momentum Encoder)**:MoCo 提出使用一个动量更新的编码器(Key Encoder)来为负样本队列生成一致的表征。这解决了端到端训练中负样本来自同一批次导致不一致,以及内存限制负样本数量的问题。动量更新公式为:$\theta_k \leftarrow m \theta_k + (1-m) \theta_q$,其中 $m$ 接近1(如0.999)。
3. **避免“表征坍塌”(Collapse)**:对比学习的一个关键挑战是模型可能找到一个 trivial solution,即所有输入都映射到相同的表征,此时损失很低但表征无用。引入**负样本**是防止坍塌的关键机制。BYOL 和 SwAV 等工作探索了无需负样本的路径:
* **BYOL**:使用不对称的双编码器架构和动量更新,通过预测正样本的表征来学习,避免了坍塌。
* **SwAV**:在线聚类,通过交换预测的聚类分配来实现对比,同样不需要负样本。
**表1:代表性对比学习方法对比**
| 方法 | 核心创新 | 是否需要负样本? | 主要贡献 |
| :--- | :--- | :--- | :--- |
| **SimCLR** | 强调数据增强的重要性,引入MLP投影头 | 是 | 证明了数据增强和非线性变换的关键作用 |
| **MoCo v1/v2** | 动量编码器、字典队列 | 是 | 实现了大规模负样本的高效且一致的对比 |
| **BYOL** | 不对称架构、动量目标编码器 | 否 | 证明了即使没有负样本也能学习强大表征 |
| **SwAV** | 在线聚类、交换分配 | 否 | 将聚类与对比结合,效率高 |
### **4. 掩码图像建模(Masked Image Modeling, MIM)**
MIM 的成功深受 NLP 中 BERT 的启发。其核心思想是:随机掩码输入图像的大部分块(如60%-75%),然后让模型预测被掩码的内容。
#### **4.1 基本流程**
1. **分块与掩码**:将图像 $x$ 划分为规则的非重叠块(patches),随机选择一部分块并将其替换为可学习的掩码令牌或直接移除。
2. **编码**:使用编码器(通常是 Vision Transformer, ViT)处理未被掩码的令牌序列,得到上下文表征。
3. **预测**:基于编码器的输出,通过一个轻量的解码器或线性头预测被掩码区域的内容。
4. **计算损失**:在预测值和真实值之间计算重构损失(如交叉熵或均方误差)。
#### **4.2 预测目标的选择**
预测什么是 MIM 成功的关键:
* **BEiT**:预测在预训练好的 VAE 编码器空间中对应的视觉令牌(Visual Token)。它将图像离散化,将任务转化为分类问题。
* **MAE**:直接预测被掩码块的归一化像素值(MSE Loss)。它证明了一个简单的目标配合极高的掩码率和非对称编解码器架构就足够有效。
* **SimMIM**:进一步简化了 MAE,证明即使不使用归一化像素、非对称设计或特殊的数据增强,MIM 也能工作得很好,降低了实现门槛。
* **PeCo**、**Data2Vec** 等:探索了在连续特征空间中进行预测等其他目标。
#### **4.3 MIM 的优势**
* **与ViT的完美契合**:MIM 预训练策略极大地释放了 ViT 架构的潜力,使其在下游任务上的表现显著超越有监督预训练的 ViT 和对比学习模型。
* **高掩码率与效率**:MAE 表明,高掩码率(如75%)不仅大大降低了预训练的计算和内存开销,还起到了强正则化的作用,迫使模型学习强大的全局上下文理解能力,而非依赖局部纹理。
* **可解释性**:模型的重构过程可以直观地展示其学到了什么,具有一定的可解释性。
### **5. 挑战与未来展望**
尽管取得了巨大成功,自监督视觉表征学习仍面临诸多挑战:
1. **理论理解不足**:对比学习为何有效?MIM 避免了对比学习的哪些问题?这些方法的理论根基仍需深化。
2. **计算资源消耗**:大规模预训练仍需巨大的计算资源和时间,如何提高效率是一个重要方向。
3. **下游任务适应性**:不同的下游任务(如密集预测的检测分割与高层语义的分类)可能需要不同的表征,如何让预训练表征更具通用性和可迁移性?
4. **超越ImageNet范式**:当前评估严重依赖ImageNet,如何设计更能反映真实世界复杂性的基准?
**未来研究方向展望**:
* **多模态自监督学习**:如CLIP、ALIGN所示,结合视觉与语言信号进行对比学习,能够学习到更丰富、更具语义的表征。
* **统一框架**:探索能否构建一个统一框架,融合对比学习和MIM的优势。例如,**iBOT** 通过在线令牌化将对比学习与MIM相结合,取得了优异效果。
* **面向视频与3D**:将SSL范式扩展到视频、点云等时序和3D数据,学习时空表征。
* **与神经科学的交叉**:MIM的“预测”机制与人类大脑的预测编码理论有相似之处,二者的交叉研究可能带来新的灵感。
### **6. 结论**
自监督学习已经彻底改变了视觉表征学习的格局。对比学习通过实例判别和构建正负样本对,学会了对数据增强不变的判别性特征;而掩码图像建模则通过重构被掩码的图像内容,迫使模型学习丰富的上下文语义信息。这两条技术路线从不同角度挖掘了无标注数据中蕴藏的监督信号,推动了模型性能的边界。
展望未来,随着模型的不断扩展、多模态信息的融合以及理论理解的深化,自监督学习有望成为人工智能感知系统的默认预训练范式,最终实现从“通过标注学习”到“通过观察和理解世界学习”的根本性转变。
---
### **参考文献**
[1] Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A simple framework for contrastive learning of visual representations. *ICML*.
[2] He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). Momentum contrast for unsupervised visual representation learning. *CVPR*.
[3] Grill, J.-B., et al. (2020). Bootstrap your own latent: A new approach to unsupervised visual representation learning. *NeurIPS*.
[4] Bao, H., Dong, L., & Wei, F. (2021). BEiT: BERT pre-training of image transformers. *ICLR*.
[5] He, K., Chen, X., Xie, S., Li, Y., Dollár, P., & Girshick, R. (2022). Masked autoencoders are scalable vision learners. *CVPR*.
[6] Xie, Z., et al. (2022). SimMIM: A simple framework for masked image modeling. *CVPR*.
[7] Zhou, J., et al. (2021). iBOT: Image BERT pre-training with online tokenizer. *ICLR*.
---
代码
详细实现两个最具代表性的自监督学习算法:**SimCLR(对比学习)** 和 **MAE(掩码图像建模)**。我们将使用 PyTorch 框架,并提供完整的、可运行的代码示例。
---

最低0.47元/天 解锁文章
1373

被折叠的 条评论
为什么被折叠?



