Vision Transformer(ViT
)是一种革命性的深度学习模型
,它将Transformer架构
——最初设计用于自然语言处理(NLP)任务——成功应用于计算机视觉领域。
Vision Transformer的中文名称
通常被翻译为“视觉变换器”
或“视觉Transformer”
。这个名字直接来源于其英文缩写“ViT”,并准确反映了其将Transformer架构应用于视觉(图像处理)领域
的特点。
在2020
年由Google Research的Alexey Dosovitskiy等人提出的论文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》
中首次详细介绍了ViT。
核心概念
- 图像分块:ViT通过
将图像分割成多个固定大小的小块
(例如16x16像素的小块),这些小块被视为序列中的“单词”(word)
。每个小块首先被展平
并通过一个线性层
来产生固定维度
的向量
。 - 位置嵌入:为了让模型能够利用
图像中的空间信息
,ViT为每个小块的向量添加位置嵌入
(p