
Transformer
文章平均质量分 91
呆呆的猫
爱发呆 爱抹茶 一直在路上
展开
-
【Transformer】23、SETR:Rethinking Semantic Segmentation from a Seq-to-Seq Perspective with Transformer
使用渐进上采样,使用卷积核上采样交替变换来实现,为了避免直接上采样多倍带来的误差,这个上采样方法每次只上采样2倍,也就是说如果要把大小为。使用线性投影 f 将 patch 映射到一个 C 维的 embedding space,于是就从一个2维的图像得到了一个一维的序列。Transformer 使用上述得到的 E 作为输入,则意味着其可以获得全局的感受野,解决 FCN 等方法感受野有限的问题。Decoder的作用:生成和原图大小一致的2维分割结果。上的 patch 学习了一个特殊的位置编码。原创 2022-07-18 11:03:11 · 620 阅读 · 0 评论 -
【Transformer】22、AdaViT: Adaptive Vision Transformers for Efficient Image Recognition
文章目录一、背景二、方法三、效果一、背景Transformer 在多个领域实现了良好的效果,但其计算量随着 patches 数量的增加、self-attention head 数量增加、transformer block 数量的增加会有很大的增大。但作者提出了一个问题:作者认为这是因为图像数据需要在数据内部建立长距离关系,也就是在 patch 之间建立关系。所以作者提出了一个 AdaViT,二、方法三、效果...原创 2021-12-23 17:13:40 · 2826 阅读 · 0 评论 -
【Transformer】21、AdaViT: Adaptive Tokens for Efficient Vision Transformer
文章目录一、背景二、方法三、效果一、背景Transformer 在多个任务上都取得了亮眼的表现,在计算机视觉中,一般是对输入图像切分成多个 patch,然后计算 patch 之间的自注意力实现下游任务。但由于自注意力机制的计算量是和输入图像大小呈平方关系的,所以,在边端设备上使用 Transformer 成为了一个问题。作者认为不同的输入图像对网络来说,预测难度是不同的。如一个车和一个人在干净的背景中,那么就很好识别。如果是多个不同的动物在复杂的背景中,那么就较难识别。基于此,作者实现了一个网络原创 2021-12-16 14:55:54 · 2269 阅读 · 0 评论 -
【Transformer】20、SOFT: Softmax-free Transformer with Linear Complexity
所以,本文作者提出了 softmax-free transformer, SOFT,在 self-attention 中移除了 softmax,使用高斯核函数来代替内积,能够通过低秩矩阵分解来近似得到 self-attention 矩阵。一般的 self-attention 都是计算规范化的 token 特征的内积计算得到,保持这种 softmax 操作对后面的线性化操作有些挑战。为了降低计算量,作者参考 Nystrom[38] 来实现低秩矩阵近似,可以不用计算全部的 self-attention。原创 2021-12-13 18:32:20 · 3933 阅读 · 0 评论 -
【Transformer】19、TransMix: Attend to Mix for Vision Transformers
文章目录一、背景和动机二、方法2.1 Mixup2.2 TransMix三、效果代码:https://github.com/Beckschen/TransMix一、背景和动机基于 mix-up 的数据增强方法对 ViT 这种结构很有用,因为这种结构容易产生过拟合,但是,之前的 mixup-based 方法有一个潜在的先验,那就是目标的线性插值比率和输入整张图的插值比率是相同的。这就会导致在 mixed image 里边可能没有有效的目标,但仍然会有label。为了弥补上述现象导致的问题,作者提出了原创 2021-12-09 18:07:26 · 1264 阅读 · 0 评论 -
【Transformer】18、ACMix:On the Integration of Self-Attention and Convolution
文章目录一、背景和动机二、方法三、效果一、背景和动机卷积核自注意机制是两个很有效的特征提取方法,但这两个方法通常被认为是两种不同机制的方法。卷积方法是对局部进行特征抽取,全局特征共享,自注意力方法是全局像素的权重提取。本文作者认为这两者有很强的底层关系,所以从大范围上来说,这两者的计算机制是类似的。之前也有一些工作将这两者进行结合,如:SENet,CBAM 等则说明了自注意机制可以对卷积网络模型起到帮助。SAN,BoTNet 等使用自注意模型来代替卷积操作AA-ResNet,Contai原创 2021-12-09 15:03:35 · 2141 阅读 · 1 评论 -
【Transformer】17、ATS: Adaptive Token Sampling For Efficient Vision Transformers
文章目录一、背景二、动机三、方法3.1 Token Scoring3.2 Token Sampling四、效果一、背景尽管现有的 transformer 模型在分类等任务上取得了较好的效果,但计算量还是很高,需要很多的 GFLOPs,不适用于很多边缘设备,虽然GFLOPs 也可以通过降低网络中 token 数量来降低,DynamicViT 使用网络预测每个 token 的得分,从而判断哪个 token 是冗余的。虽然这个方法能够降低网络的 GFLOPs,但得分预测网络也会引入额外的参数,并且如果想要不原创 2021-12-07 17:50:14 · 3999 阅读 · 0 评论 -
【Transformer】16、SegFormer:Simple and Efficient Design for Semantic Segmentation with Transformers
文章目录一、背景和动机二、方法2.1 Hierarchical Transformer Encoder2.2 Lightweight ALL-MLP Decoder2.3 和 SETR 的区别三、效果四、代码本文收录于 NeurIPS 2021论文链接:https://arxiv.org/pdf/2105.15203.pdf代码链接:https://github.com/NVlabs/SegFormer一、背景和动机语义分割是计算机视觉任务的基础,又因为分割和分类有强关系,所以产生了从分类网络变原创 2021-12-02 17:07:51 · 5189 阅读 · 1 评论 -
【Transformer】15、PoolFormer: MetaFormer is Actually What You Need for Vision
文章目录一、背景论文链接:https://arxiv.org/pdf/2111.11418.pdf代码链接:https://github.com/sail-sg/poolformer一、背景Transformer 最近在计算机视觉任务上展示了很好的效果,大家基本上都认为这种成功来源于基于 self-attention 的结构。但又有文章证明,只使用 MLP 也能达到很好的效果,所以作者假设 Transformer 的效果来源于 transformer 的结构,而非将 token 进行融合交互的模原创 2021-11-29 17:10:40 · 3892 阅读 · 2 评论 -
【Transformer】14、Are Transformers More Robust Than CNNs?
文章目录一、背景二、动机三、方法四、结论本文收录于 NIPS 2021一、背景CNN 被广泛用于计算机视觉任务中,其成功的主要原因在于 “卷积” 这一操作,“卷积” 能够引入一定的归纳偏置,如平移不变性等。最近,未使用卷积的 vision transformer 结构在计算机视觉领域也取得了很大的成功,ViT 主要使用自注意力机制,来实现特征提取。二、动机有一些学者提出,Transformer 比 CNN 更加鲁棒,但作者认为他们的结论仅仅来源于现有的实验,两者并没有被放到相同的体量下来对比。原创 2021-11-22 14:34:46 · 2184 阅读 · 0 评论 -
【Transformer】13、Augmented Shortcuts for Vision Transformers
文章目录一、背景二、动机三、方法3.1 增强残差连接3.2 使用循环映射进行高效实现四、效果论文链接:https://arxiv.org/abs/2106.15941代码链接:未开源一、背景Transformer 已经在计算机视觉领域的某些任务上取得了超越 CNN 的效果。在 Transformer 的结构中,self-attention 和 MLP 模块前后通常会使用残差连接。残差连接最初是在 CNN 的结构中提出,用来缓解梯度消失问题。二、动机有些文章指出,没有残差连接的结构的网络效果很差原创 2021-11-17 19:42:05 · 1117 阅读 · 0 评论 -
【Transformer】12、Do Vision Transformers See Like Convolutional Neural Networks?
文章目录一、背景二、方法论文链接:https://arxiv.org/pdf/2108.08810.pdf一、背景Transformer 现在在视觉方面取得了超越 CNN 的效果,所以作者就有一个问题:Transformer 是如何处理视觉的相关任务的呢?基于此,作者对 ViT 和 CNN 在分类任务上进行了一系列分析,发现两者有着很大的不同。ViT 在所有层上都有更一致的表达特征,而造成这一现象的原因在于 self-attention,self-attention 能够在浅层就聚合全局特征。原创 2021-11-10 14:28:57 · 2826 阅读 · 2 评论 -
【Transformer】11、DPT: Vision Transformer for Dense Prediction
文章目录一、背景和动机二、方法2.1 Transformer encoder2.2 Convolutional decoder2.3 处理不同输入大小三、效果3.1 单目深度估计3.2 语义分割论文链接:https://arxiv.org/pdf/2103.13413.pdf代码链接:https://github.com/intel-isl/DPT一、背景和动机现有的密集预测模型大都是基于卷积神经网络的模型,基本上都把网络分为两部分:encoder:也就是 backbonedecoder:原创 2021-11-09 14:46:58 · 7674 阅读 · 1 评论 -
【Transformer】10、HRFormer:High-Resolution Transformer for Dense Prediction
文章目录一、背景二、动机三、方法四、效果论文链接:https://arxiv.org/abs/2110.09408代码链接:https://github.com/HRNet/HRFormer一、背景ViT 的提出让人们看到了 Transformer 在 图像分类任务上的潜力,紧随其后还有很多相关的改进,如知识蒸馏、更深的网络结构、引入卷积等方法,但 ViT 及其类似的方法都缺失了局部空间的信息,难以用于密集预测。还有一些方法聚焦在了使用 Transformer 来实现分割、检测等密集预测任务。二、原创 2021-11-08 11:02:30 · 1403 阅读 · 0 评论 -
【Transformer】9、CrossFormer:A versatile vision transformer based on cross-scale attention
文章目录一、背景二、动机三、方法3.1 Cross-scale Embedding Layer(CEL)3.2 Cross-former Block3.2.1 Long Short Distance Attention(LSDA)3.2.2 Dynamic position bias (DPB)3.4 CrossFormer 的变体四、效果五、代码论文链接:https://arxiv.org/pdf/2108.00154.pdf代码链接:https://github.com/cheerss/Cross原创 2021-10-31 23:33:50 · 2121 阅读 · 0 评论 -
【Transformer】8、SMCA: Fast Convergence of DETR with Spatially Modulated Co-Attention
文章目录一、背景二、动机三、方法3.1 SMCA 概述3.2 Spatially Modulated Co-Attention四、效果论文链接:https://arxiv.org/pdf/2108.02404.pdf代码链接:https://github.com/gaopengcuhk/SMCA-DETR一、背景DETR 作为首个使用 Transformer 实现目标检测的方法,获得了和基于 CNN 的检测方法相媲美的检测效果,如 Faster-RCNN 等,而且不需要手工设计的 anchor原创 2021-10-29 16:22:56 · 1376 阅读 · 0 评论 -
【Transformer】7、TNT: Transformer iN Transformer
文章目录一、背景二、动机三、方法3.1 Transformer in Transformer3.2 Network Architecture四、效果五、代码论文链接:https://arxiv.org/pdf/2103.00112.pdf代码链接:https://github.com/huawei-noah/CV-Backbones/tree/master/tnt_pytorch一、背景Transformer 是一种主要基于注意力机制的网络结构,能提取输入数据的特征。计算机视觉中的 Transfo原创 2021-10-27 18:44:45 · 1859 阅读 · 0 评论 -
【Transformer】6、Twins:Revisiting the Design of Spatial Attention in Vision Transformers
文章目录一、背景二、动机三、方法3.1 Twins-PCPVT3.2 Twins-SVT四、实验代码:https://github.com/Meituan-AutoML/Twins一、背景最近以来,Transformer 取得了很大的关注,相比 CNN 而言,Transformer 有更强的捕获 long-range dependencies 的能力,且可以处理文本、语音、图像等任务。虽然Transformer效果也挺好的,但其由于spatial self-attention 而导致的高计算量一直原创 2021-05-06 20:03:16 · 2964 阅读 · 0 评论 -
【Transformer】5、CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows
论文:文章目录一、背景二、动机三、方法3.1 总体结构3.2 Cross-Shaped Window Self-Attention3.3 CSWin Transformer Block3.4 变体四、效果一、背景目前,基于transformer的方法在 CV 领域基本实现了和CNN相当的效果,其好的效果来源于内部多头自注意力机制对远距离依赖的建模能力,这对以高分辨率数据作为输入的下游方法(检测、分割等)都很有帮助。但另外,由于 Transormer 结构是全注意力结构,计算量很大。二、动机为了提高.原创 2021-08-21 11:19:13 · 1901 阅读 · 0 评论 -
【Transformer】4、Swin Transformer
文章目录一、背景二、动机三、方法四、效果代码:https://github.com/microsoft/Swin-Transformer一、背景Transformer 最开始是在 NLP 中使用较多,因为其 self-attention 组件能够对 Long-range 的信息进行建模,近期有很多人开始将 Transformer 应用到计算机视觉中,作为一个类似于 CNN 的特征提取器。二、动机NLP 到 CV ,主要有两个问题:视觉场景中,目标大小不同视觉场景中,图像的分辨率远远大于句子.原创 2021-08-08 22:31:00 · 4815 阅读 · 5 评论 -
【Transformer】2、ViT:An image is worth 16x16: transformers for image recognition at scale
代码链接:https://github.com/lucidrains/vit-pytorch论文连接:https://openreview.net/pdf?id=YicbFdNTTy一、背景和动机Transformer 在 NLP 领域取得了很好的效果,但在计算机视觉领域还没有很多应用,所以作者想要借鉴其在 NLP 中的方法,在计算机视觉的分类任务中进行使用。二、方法由于 Transformer 在 NLP 中使用时,都是接受一维的输入,而图像是二维的结构,所以需要先把图像切分成大小相等的pa.原创 2021-10-22 19:01:57 · 1758 阅读 · 0 评论 -
【Transformer】1、A Survey of Visual Transformers
Transformer 概述原创 2022-09-26 17:17:30 · 2471 阅读 · 0 评论