Vision Transformer
关于ViT
Transformer自2017年06月由谷歌团队在论文Attention Is All You Need中提出后,给自然语言处理领域带去了深远的影响,其并行化处理不定长序列的能力及自注意力机制表现亮眼。根据以往的惯例,一个新的机器学习方法往往先在NLP领域带来突破,然后逐渐被应用到计算机视觉领域。时间来到2020年10月,同样是谷歌团队提出了将Transformer应用到视觉任务的方法,Vision Transformer(ViT)。
论文:AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
关于对Transformer的介绍可以参考Transformer 介绍
。
将Transformer应用于视觉任务的一种想法是将图像每个像素都flatten,得到一个表示图像的序列,作为模型的输入。但对使用自注意力模块的transformer来说,这种方法随着图像分辨率的变大,计算复杂度也变得很高,因为scaled dot self attention计算时 Q K d k V \frac{QK}{\sqrt{d_k}}V dkQKV的复杂度是序列长度的平方。譬如对于640*640的图像,序列长度 L L L将达到409600,这远远超出当前transformer所能处理的序列长度。
在ViT中,作者是将输入图像等分成大小为16X16的patch,然后通过image embedding将输入从NCHW转换成(N, hidden_dim, (n_h * n_w)), n_h和n_w是H//patch_size和W//patch_size的大小,flatten后得到长度为 L = n h ∗ n w L=n_h*n_w L

本文介绍了Vision Transformer (ViT),一个由谷歌团队提出的将Transformer应用于视觉任务的模型。ViT通过将图像分割成固定大小的patches,然后转换为序列,输入到Transformer编码器中进行处理。尽管高分辨率图像会导致计算复杂度增加,但ViT通过固定大小的patches解决了这个问题。在分类任务中,ViT仅使用编码器输出的第一个元素作为分类器的输入,而忽略了其他信息。文章还涵盖了代码分析,解析了输入数据处理和多头注意力模块的应用。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



