Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet
Li Yuan1*, Yunpeng Chen2 , Tao Wang1∗ , Weihao Yu1 , Yujun Shi1 ,
Francis EH Tay1 , Jiashi Feng1 , Shuicheng Yan2
1National University of Singapore 2 YITU Technology
yuanli@u.nus.edu, yunpeng.chen@yitu-inc.com, shuicheng.yan@gmail.com
代码:https://github.com/yitu-opensource/T2T-ViT
论文:https://arxiv.org/abs/2101.11986
Abstract
在ImageNet上从头训练一个vision transformer(ViT)模型,ViT模型可以不依赖CNN,直接应用于图像块序列进行图像分类,但是在中等大小数据集(例如imageNet)上的效果不如CNN,主要原因:1.输入图像简单token化无法建模重要的局部特征。2.ViT的冗余注意力主干网设计在固定负载和有限样本约束下限制了特征丰富性。本文提出渐进式token化(Tokens to token)使每个Token更好地建模局部信息,借助CNN架构思想使用deep-narrow结构减少信息冗余提升了实验精度。
Introduction
ViT把图像切分成14*14或16*16固定大小的图像块patch,然后将其线性序列做transformer模型输入,运用NLP中处理token的方式处理图像块,训练分类模型。
尽管这个ViT 的transformer模型能适用于解决图像处理任务,但是实验证明需要大数据样本的训练效果才与CNN媲美。(例如JFT-300M数据集)。接着用本文提出的ViT-ViT-24实验与ViT-L/16和ResNet50作比较,下面是数据特征提取过程的可视化
可以看到