📌 论文标题:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
📅 发布会议:ICLR 2021
📎 作者单位:Google Research, Brain Team
一、前言
作为一名深度学习爱好者,我一直对Transformer在视觉领域的扩展充满好奇。直到最近阅读了这篇经典论文——《An Image is Worth 16x16 Words》,我才真正意识到:原来图像可以像句子一样被“阅读”。本文将从论文的动机、方法、实验和个人实现出发,带你重新理解Vision Transformer(ViT)模型的核心思想与实用价值。
二、研究背景:为什么要用Transformer做图像分类?
在自然语言处理(NLP)中,Transformer已经是绝对主角。BERT、GPT等模型的成功,源于Transformer在处理长文本序列上的出色能力。而在计算机视觉(CV)领域,传统的卷积神经网络(CNN)依旧是主流,ResNet、EfficientNet等架构统治着ImageNet等主流基准。
但这篇论文却反其道而行之,抛弃CNN结构,直接使用标准的Transformer结构处理图像,通过将图像切成固定大小的Patch来当做“词”来处理,就像NLP中的词向量一样。
三、核心思想:图像 = Patch序列 + Transformer
作者提出了一种简单但有效的方法:Vision Transformer(ViT),其主要流程如下:
-
图像切分:将一张输入图像(如224×224)切成固定大小的Patch(如16×16),总共会得到 (224/16)^2 = 196 个Patch。
-
线性嵌入:每个Patch被拉平成一维向量,并通过一个线性层投影为固定维度的Embedding(如768)。