动手学深度学习 - 注意力机制和转换器 - 11.8 视觉转换器（Vision Transformer）

最新推荐文章于 2025-06-04 07:57:16 发布

原创最新推荐文章于 2025-06-04 07:57:16 发布 · 651 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #transformer #人工智能

程序猿之深度学习专栏收录该内容

61 篇文章

订阅专栏

🚀 动手学深度学习 - 注意力机制和转换器 - 11.8 视觉转换器（Vision Transformer）

11.8.1 模型

视觉Transformer（ViT）是将Transformer架构从自然语言处理扩展到计算机视觉的创新尝试。在这一模型中，原始图像被划分为固定尺寸的图像块（patch），这些图像块与一个特殊的分类标记（<cls>）一起组成序列输入Transformer编码器，如图11.8.1所示。

在ViT中，每个图像块经过线性变换和位置编码之后，输入多层Transformer编码器。最终，<cls>标记的输出作为整个图像的全局表征，送入MLP头部预测分类标签。ViT充分利用了自注意力机制的全局建模能力，尤其在大规模数据集上展现出优于传统CNN的可扩展性。

🧠 理论理解

ViT（Vision Transformer）将原本用于 NLP 的 Transformer 架构引入计算机视觉，其核心思想是：

将图像分割成 patch；
将每个 patch 看作 token 输入；
像处理词一样处理图像块，借助多头注意力建模全局依赖；
通过 <cls> token 聚合全局语义，输出分类。

该方法不再依赖卷积操作，而是全程使用自注意力建模图像空间。

🏢 企业实战理解

Google（ViT 原论文作者）：在 ImageNet-21k 和 JFT-300M 等大规模图像数据上训练 ViT，展示其超越 CNN 的潜力，模型被集成到 Google Cloud Vision 产品中。
NVIDIA：通过 ViT 架构构建通用视觉模型 Megatron-ViT，用于医疗影像、工业检测、自动驾驶等高精度视觉任务。
字节跳动：在抖音短视频封面分类与推荐中尝试 ViT 替换 CNN，提升多模态特征对齐能力。

❓Q1：为什么视觉Transformer（ViT）在小数据集上表现通常不如CNN？

难度评级：⭐️⭐️
考察点：归纳偏置、数据规模、模型归一性

✅ 标准答案：
视觉Transformer相比CNN缺少归纳偏置（例如局部感受野、平移不变性等），这使得其在小规模数据集上泛化能力差，易过拟合。而CNN天然适用于图像的局部结构建模，在数据有限时更具优势。

✨ 加分项：

提及 DeiT（Data-efficient Image Transformer）通过数据增强+蒸馏在 ImageNet 上提升ViT性能。
提及 PreNorm 更有利于训练稳定性。

11.8.2 补丁嵌入（Patch Embedding）

补丁嵌入的作用是将二维图像划分为若干固定大小的patch，并将每个patch展平后投影到高维表示空间。ViT巧妙地使用了一个具有patch大小的卷积核（kernel size = stride = patch_size）的卷积层来完成这一过程。这样每个patch就相当于一个“单词”，从而使得图像输入能够被Transformer处理。

例如，一个96×96的图像，如果patch大小是16×16，则可以被划分为36个patch，外加一个<cls> token，总共37个token作为序列输入。

🧠 理论理解

为了将图像输入转换为 token 序列，ViT 使用了 Patch Embedding：

将图像按固定大小切块；
使用步长等于 kernel 的卷积实现 patch 展平+投影；
得到类似文本中 token embedding 的向量序列。

🏢 企业实战理解

OpenAI：在 CLIP 模型中使用类似 patch embedding 将图像转为 token 序列，与文本 token 对齐，用于图文匹配和多模态搜索。
京东：商品图像标签识别使用 ViT 结构替换传统 CNN + MLP pipeline，在复杂背景下表现更稳定。

❓Q2：ViT 中的 patch embedding 与 CNN 的卷积有何本质联系？

难度评级：⭐️⭐️⭐️
考察点：图像 token 化、卷积本质

✅ 标准答案：
ViT 中 patch embedding 实际上可以通过一个 kernel size = stride = patch_size 的卷积实现。每个 patch 被视为一个 token，通过卷积完成切块 + flatten + 线性映射，与文本中 word embedding 结构等价。

✨ 加分项：