ViT: transformer在图像领域的应用

最新推荐文章于 2025-10-18 16:40:32 发布

原创

最新推荐文章于 2025-10-18 16:40:32 发布 · 1.2k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

本文介绍了如何将Transformer架构应用于图像领域，通过将图片分割成patch并转化为embedding输入到Transformer中。在大规模数据预训练时，ViT在性能上超越了CNN。实验表明，ViT在效果与计算量的平衡上优于ResNet，但小数据集上预训练效果不佳。此外，作者探讨了自监督学习在ViT中的应用，并提出未来研究方向。

论文： An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
代码：https://github.com/google-research/vision_transformer
代码2：https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/vision_transformer.py

我们在Transformer详解(1)—原理部分详细介绍了transformer在NLP领域应用的原理，transformer架构自发布以来已经在自然语言处理任务上广泛应用，今天我们将介绍如何将transformer架构应用在图像领域。

1. 概要

基于self-attention的网络架构在NLP领域中取得了很大的成功，但是在CV领域卷积网络架构仍然占据主导地位。受到transformer在NLP中应用成功的启发，也有很多工作尝试将self-attention与CNN网络结合，甚至有些工作直接替换CNN网络，理论上这些模型是高效的，由于这些特殊的注意力机制未与硬件加速器有效适配，因此在大规模的图像检测中，经典的ResNet网络架构仍然是SOTA

受到Transformer网络在NLP领域中成功适配的启发，作者提出对transformer尽可能少的修改，直接在图片上应用标准的transformer。为了实现这个目标，首先需要将图片分割成多个patch，并将这些patch转换成embedding作为transformer的输入。图片的patch就相当于NLP中的token。

最后作者得到结论：在数据量不足的情况下进行训练时，ViT不能很好地泛化，效果不如CNN，不过在训练大规模数据时，vit的效果会反超CNN

2. 方法

在模型设计方面，version transformer尽量与原始transformer结构保持一致，因为NLP中的transformer具有高效的实现方式，这样可以开箱即用。模型的整体结构如下所示：
在这里插入图片描述
标准的 transformer 输入是一维向量序列，为了处理二维图像，将输入图片 $\mathbf{x}\in\mathbb{R}^{H\times W\times C}$ 分割成一系列的patch，并将这些patch平整成一维向量，最终得到 $\mathbf{x}_p\in\mathbb{R}^{N\times(P^2\cdot C)}$ ，其中 $(H, W)$ 是原始图片分辨率， $C$ 是图片的通道数， $(P, P)$ 是每个patch的分辨率， $N=\frac{HW}{P^2}$

最低0.47元/天解锁文章