在人工智能的快速发展中,图像分类一直是一个重要的研究领域。传统的卷积神经网络(CNNs)在图像分类任务中取得了显著的成果,但近年来,Transformer架构也逐渐在图像领域崭露头角。本文将深入探讨视觉Transformer(Vision Transformer,简称ViT)的工作原理、关键细节以及重要发现。
一、Transformer与CNN的差异
Transformer缺乏卷积神经网络(CNNs)的归纳偏置,如平移不变性和局部受限的感受野。平移不变性意味着即使图像中物体的外观或位置发生变化,我们仍然能够识别它。在计算机视觉中,平移是指每个图像像素在特定方向上移动固定的量。而卷积是一种线性局部算子,我们只能看到卷积核所指示的相邻值。
与之相反,Transformer在设计上是排列不变的,但它不能直接处理网格结构的数据,而需要序列数据。因此,我们需要将空间非序列信号转换为序列。
二、视觉Transformer的工作原理
视觉Transformer(ViT)的整体架构可以分为以下几个步骤:
- 分割图像为小块:将图像分割成多个小块,这些小块就相当于序列中的标记(类似于单词)。<