16.ViT模型介绍

最新推荐文章于 2025-10-15 04:56:04 发布

原创

最新推荐文章于 2025-10-15 04:56:04 发布 · 458 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #目标检测 #深度学习 #transformer

本文介绍了Vision Transformer (ViT)，一个由谷歌团队提出的将Transformer应用于视觉任务的模型。ViT通过将图像分割成固定大小的patches，然后转换为序列，输入到Transformer编码器中进行处理。尽管高分辨率图像会导致计算复杂度增加，但ViT通过固定大小的patches解决了这个问题。在分类任务中，ViT仅使用编码器输出的第一个元素作为分类器的输入，而忽略了其他信息。文章还涵盖了代码分析，解析了输入数据处理和多头注意力模块的应用。

Vision Transformer

关于ViT

Transformer自2017年06月由谷歌团队在论文Attention Is All You Need中提出后，给自然语言处理领域带去了深远的影响，其并行化处理不定长序列的能力及自注意力机制表现亮眼。根据以往的惯例，一个新的机器学习方法往往先在NLP领域带来突破，然后逐渐被应用到计算机视觉领域。时间来到2020年10月，同样是谷歌团队提出了将Transformer应用到视觉任务的方法，Vision Transformer(ViT)。

论文：AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

关于对Transformer的介绍可以参考Transformer 介绍
。

将Transformer应用于视觉任务的一种想法是将图像每个像素都flatten,得到一个表示图像的序列，作为模型的输入。但对使用自注意力模块的transformer来说，这种方法随着图像分辨率的变大，计算复杂度也变得很高，因为scaled dot self attention计算时 $\frac{QK}{\sqrt{d_k}}V$ 的复杂度是序列长度的平方。譬如对于640*640的图像，序列长度 $L$ 将达到409600,这远远超出当前transformer所能处理的序列长度。

在ViT中，作者是将输入图像等分成大小为16X16的patch，然后通过image embedding将输入从NCHW转换成(N, hidden_dim, (n_h * n_w)), n_h和n_w是H//patch_size和W//patch_size的大小，flatten后得到长度为 $L=n_h*n_w$

最低0.47元/天解锁文章