ViT论文解读
本文主要记录Yi Zhu大佬对于ICLR 2021的一篇论文精读
AN IMAGE IS WORTH 16x16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
论文地址:https://arxiv.org/pdf/2010.11929.pdf
源码地址:https://github.com/google-research/vision_transformer
标题部分
AN IMAGE IS WORTH 16x16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
一张图片等价于很多16X16大小的单词
这里的等价指的是把图片看作是很多的patch,每个patch的大小是16x16,那么这张图片就是很多16x16patch组成的。
摘要
作者阐述了Transformer在NLP领域已经大放异彩了,但是在CV视觉领域还是很有限的。在CV的研究中,以往的模型要么是将Transformer中的Attent