Transformer
文章平均质量分 93
小小小~
人工智能爱好者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Segment Anything Model(SAM)论文解读
在这项工作中,作者的目标是建立一个图像分割的基础模型。也就是说,寻求开发一个提示模型,并使用一个能够实现强大泛化的任务在广泛的数据集上对其进行预训练。有了这个模型,使用即时工程解决新数据分布上的一系列下游分割问题。该计划的成功取决于三个组成部分:任务、模型和数据。为了开发它们,作者解决了以下关于图像分割的问题:1、什么任务可以实现zero-shot泛化?2、相应的模型体系结构是什么?3、哪些数据可以为这项任务和模型提供支持?这些问题纠缠在一起,需要综合解决。原创 2023-09-12 09:42:49 · 2735 阅读 · 0 评论 -
Efficient Attention: Attention with Linear Complexities
注意机制在计算机视觉和自然语言处理中有着广泛的应用。最近的工作开发了点积注意力机制,并将其应用于各种视觉和语言任务。然而,点积注意力的内存和计算成本随着输入的时空复杂度大小呈二次增长。这样的增长阻碍了该机制在大输入上的应用,例如长序列、高分辨率图像或大视频。为了弥补这一缺陷,本文提出了一种新的有效注意力机制,它相当于点积注意力,但大大减少了内存和计算成本。资源效率允许更广泛和灵活地将有效的注意力模块合并到神经网络中,从而原创 2023-04-21 21:18:47 · 3051 阅读 · 0 评论 -
Inception Transformer
最近的研究表明,Transformer具有很强的建立远程依赖关系的能力,但在捕获高频信息时却表现不佳。为了解决这个问题,本文提出了一种新颖的通用Inception Transformer(简称iF),它可以有效地学习视觉数据中高频和低频信息的综合特征。具体地说,将卷积和最大池化的优点移植到Transformer上,以捕获高频信息。与最近的混原创 2023-02-15 18:26:01 · 1539 阅读 · 0 评论 -
UniFormer: Unifying Convolution and Self-attention for Visual Recognition
虽然CNN可以在小邻域内通过卷积有效地减少局部冗余,但有限的感受野使其难以捕获全局依赖。另外,VIT可以通过自注意力有效地捕获长期依赖关系,而所有令牌之间的盲目相似性比较导致高冗余。为了解决这些问题,本文提出了一种新的统一transFormer(UniFormer),它可以在一个简洁的transFormer格式中无缝地集成卷积和自注意的优点。与典型的transFormer块不同,UniFormer块中的关系聚合器在浅层和深层原创 2023-02-08 16:32:15 · 2090 阅读 · 0 评论 -
MoCoViT: Mobile Convolutional Vision Transformer
paper链接: https://arxiv.org/abs/2205.12635v1本文中提出了Mobile卷积视觉Transformer(MoCoViT),它通过将Transformer引入移动卷积网络来利用这两种架构的优势来提高性能和效率。与最近的视觉Transformer工作不同,MoCoViT中的Mobile Transformer块是为移动设备精心设计的,非常轻量,通过两个主要修改来实现:Mobile自注意(MoSA)模块和Mobile前馈网络(MoFFN)。MoSA通过Branch Shari原创 2023-02-05 18:07:18 · 1510 阅读 · 0 评论 -
UFO-ViT: High Performance Linear Vision Transformer without Softmax
paper链接: https://arxiv.org/pdf/2109.14382.pdf本文提出了单元强制操作Vision Transformer(UFO-ViT),这是一种具有线性复杂度的新型SA机制。这项工作的主要方法是从原来的SA。我们分解了SA机构的矩阵乘法消除非线性,没有复杂的线性逼近。仅修改原始SA中的几行代码,所提出的模型在大多数图像分类和密集预测任务上优于基于Transformer的模型。原始的自注意(SA)机制尽管取得了巨大的成功,但由于σ(QKT)∈RN×Nσ(QK^T)∈R^{N×原创 2023-02-05 13:05:46 · 899 阅读 · 1 评论 -
Separable Self-attention for Mobile Vision Transformers
移动视觉transformers(MobileViT)可以在多个移动视觉任务中实现最先进的性能,包括分类和检测。虽然这些模型的参数更少,但与基于卷积神经网络的模型相比,它们具有较高的延迟。MobileViT的主要效率瓶颈是transformers中的多头自注意(MHA),它需要$O(k^2)$时间复杂度,相对于令牌(或补丁)k的数量。此外,MHA需要复杂的操作(例如批次矩阵乘法)来计算自注意,影响资源受限设备的延迟。原创 2023-02-02 16:54:39 · 1309 阅读 · 0 评论 -
MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL
虽然mobilevit-v1有助于实现最先进的竞争结果,但mobilevit-v1块内部的融合块创建了扩展挑战,并具有复杂的学习任务。本文对融合块进行简单有效的更改,以创建mobilevit-v3块,这解决了扩展问题并简化了学习任务。提出的用于创建MobileViTv3-XXS、XS和S模型的MobileViTv1在ImageNet-1k、ADE20K、COCO和PascalVOC2012数据集上的性能优于MobileViT-v1。最近发布的MobileViT-v2架构去掉了融合块,并使用线性复杂的tran原创 2023-02-01 16:35:47 · 1906 阅读 · 6 评论 -
P2T: Pyramid Pooling T ransformer for Scene Understanding
金字塔池化计算方式由于其出色的上下文提取能力,从而在各项视觉任务中取得了很好的效果。然而,金字塔池化在骨干网络的设计中至今并没有被探索过。因此,本文提出将金字塔池化引入到视觉 Transformer 中的多头自注意力模块(Multi-Head Self-Attention,MHSA)里面,既减少了图像词符序列的长度,同时提取到更好的语境特征。基于本文提出的金字塔池化多头注意力,提出金字塔池化 Transformer(Pyramid Pooling Transformer,P2T)骨干网络。原创 2023-01-19 20:56:31 · 2111 阅读 · 0 评论 -
ResT: An Efficient Transformer for Visual Recognition
本文提出了一种高效的多尺度视觉Transformer,称为ResT,它能够作为图像识别的通用骨干。与现有的Transformer方法不同,现有的Transformer方法使用标准Transformer块来处理固定分辨率的原始图像,ResT有几个优点:(1)构建了一个内存高效的多头自注意力,它通过简单的深度卷积来压缩内存,并在保持多头多样性能力的情况下跨注意力头维度投射交互;(2)将位置编码构造为空间注意力,更灵活,无需插值或微调即可处理任意大小的输入图像;(3)没有在每个阶段的开始直接进行简单的标记,原创 2023-01-12 10:29:05 · 1244 阅读 · 0 评论 -
Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition
论文: https://arxiv.org/pdf/2211.11943.pdfcode(pytorh版本): https://github.com/shanglianlm0525/PyTorch-Networks本文并没有试图设计一种最先进的视觉识别方法,而是研究了一种更有效的方法,利用卷积来编码空间特征。通过比较最近的卷积神经网络(ConvNets)和Vision transformer的设计原理,提出利用卷积调制操作来简化自注意。本文证明了这样一个简单的方法可以更好地利用嵌套在卷积层中的大内核(≥7原创 2022-12-23 12:55:07 · 2436 阅读 · 0 评论 -
Co-Scale Conv-Attentional Image Transformers
在本文中,作者提出了一种基于共尺度(Co-scale)的图像分类器,它配备了共尺度和常规注意力机制。首先,共尺度机制在单个尺度上保持Transformers编码器分支的完整性,同时允许在不同尺度上学习的表示有效地相互通信;本文设计了一系列的串并联块来实现共尺度机制。其次,设计了一种卷积注意力机制,通过在分解注意力模块实现一个相对位置嵌入公式,并实现了一种高效的类卷积。CoaT赋予Transformers丰富的多尺度和上下文建模能力。尽管卷积和自注意操作都执行加权和,但它们的权重计算方式不同:在CNN中,权原创 2022-12-21 09:34:43 · 1106 阅读 · 0 评论 -
MPViT : Multi-Path Vision Transformer for Dense Prediction
密集的计算机视觉任务,如目标检测和分割需要有效的多尺度特征表示来检测或分类不同大小的目标或区域。虽然卷积神经网络(cnn)一直是这类任务的主要架构,但最近引入的Vision Transformer(ViTs)旨在取代它们成为骨干。与cnn类似,vit构建了一个简单的多阶段结构(即,从细到粗),用单尺度的补丁进行多尺度表示。在本研究中,从不同于现有Vision Transformer的视角,探索了多尺度patch嵌入和多路径结构,构建了多路径Vision Transformer(MPViT)。MPViT采用重原创 2022-12-02 21:40:16 · 2393 阅读 · 0 评论 -
MOAT: ALTERNATING MOBILE CONVOLUTION AND ATTENTION BRINGS STRONG VISION MODELS
本文介绍了MOA-T,这是一个建立在MObile卷积(即反向残差块)和Attension之上的神经网络家族。与当前堆叠分离的移动卷积和transformer的工作不同,本文有效地将它们合并为MOA-T。从标准Transformer块开始,将其多层感知器替换为MObile卷积,并在自注意力操作之前对其进行重新排序。MObile卷积不仅增强了网络表示能力,而且产生了更好的下采样特征。简单的MOA-T网络非常有效,通过ImageNet-22K预训练,在ImageNet-1K上实现了89.1%的top1精度。此外,原创 2022-11-29 10:09:18 · 2124 阅读 · 0 评论 -
Twins: Revisiting the Design of Spatial Attention in Vision Transformers
在本文中,重新审视了空间注意力的设计,并证明了精心设计但简单的空间注意力机制与最先进的方案相比表现良好。因此,本文提出了两种视觉转换器架构,即Twins PCPVT和TwinsVT。该架构高效且易于实现,仅涉及在现代深度学习框架中高度优化的矩阵乘法。更重要的是,所提出的体系结构在广泛的视觉任务(包括图像级分类以及密集检测和分割)上实现了优异的性能。本文的第一个发现是,PVT中的全局子采样注意力是非常有效的,并且使用适用的位置编码,其性能可以与最先进的视觉Transformers(例如,Swin)相当甚至更原创 2022-11-23 21:37:52 · 1652 阅读 · 0 评论 -
Contextual Transformer Networks for Visual Recognition
最近研究领域激发了Transformer风格的架构设计的出现,并在众多计算机视觉任务中取得了竞争性的结果。然而,大多数现有设计直接在2D特征图上使用自注意力,以基于每个空间位置处的孤立查询和键对来获得关注矩阵,但未充分利用相邻键之间的丰富上下文。本文设计了一个新颖的Transformer风格模块,即上下文Transformer(CoT)块,用于视觉识别。这种设计充分利用了输入键之间的上下文信息来指导动态注意力矩阵的学习,从而增强了视觉表示的能力。从技术上讲,CoT块首先通过3×3卷积对输入键进行上下文编码,原创 2022-11-19 16:24:27 · 3056 阅读 · 1 评论 -
CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows
本文介绍了CSWin Transformer,这是一种高效、高效的基于Transformer的通用视觉任务主干。Transformer设计中的一个具有挑战性的问题使全局自注意力的计算非常昂贵,而自注意力通常会限制每个令牌的交互领域。为了解决这个问题,本文开发了十字形窗口自注意力机制,用于在形成十字形窗口的平行水平和垂直条纹中计算自注意力,每个条纹通过将输入特征分割为相等宽度的条纹而获得。本文对条带宽度的影响进行了数学分析,并为Transformer网络的不同层改变了条带宽度,从而实现了强大的建模能力,同时限原创 2022-11-18 17:07:17 · 2442 阅读 · 2 评论 -
Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenar
由于复杂的注意力机制和模型设计,大多数现有的视觉Transformer(ViT)在现实的工业部署场景(如TensorRT和CoreML)中不能像卷积神经网络(CNN)那样高效地执行。视觉神经网络能否设计得像神经网络一样快速地进行推理,并且表现得像ViT一样强大?本文提出了一种用于在现实工业场景中高效部署的下一代Transformer,即Next-ViT,从延迟/准确性权衡的角度来看,它同时主导了CNN和ViT。下一代卷积块(NCB)和下一代变换块(NTB)分别用于通过部署友好机制捕获局部和全局信息。然后,下原创 2022-11-17 16:50:23 · 1641 阅读 · 1 评论 -
MaxViT: Multi-Axis Vision Transformer
论文:https://arxiv.org/abs/2204.01697代码地址:https://github.com/google-research/maxvit在本文中,介绍了一种高效且可扩展的注意力模型,称之为多轴注意力,该模型由两个方面组成:分块的局部注意力和扩张的全局注意力。这些设计选择允许在仅具有线性复杂度的任意输入分辨率上进行全局-局部空间交互。原创 2022-11-14 20:11:56 · 3850 阅读 · 0 评论 -
PVT v2: Improved Baselines with Pyramid Vision Transformer
论文地址:https://arxiv.org/pdf/2106.13797.pdf代码地址: https://github.com/whai362/PVT。原创 2022-11-11 09:19:15 · 4852 阅读 · 0 评论 -
DEFORMABLE DETR:用于端到端对象检测的可变形Transformer
论文:《DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION》论文链接:https://arxiv.org/pdf/2010.04159.pdf代码链接:https://github.com/fundamentalvision/Deformable-DETR最近在目标检测领域提出了DETR,以消除在物体检测中对许多手工设计部件的需求,同时显示出良好的性能。原创 2022-11-03 16:46:14 · 1874 阅读 · 0 评论 -
Transformers in Remote Sensing: A Survey
CNN的主要组成部分之一是卷积运算,它捕获输入图像中元素(如轮廓和边缘信息)之间的局部联系。CNN编码偏置,例如空间连接性和平移等方差。这些特征有助于构建通用高效的体系结构。然而,CNN中的局部感受野限制了对图像中长距离依赖关系的建模(例如,远距离部分关系)。此外,卷积与内容无关,因为卷积滤波器权重是稳定的,无论其性质如何,对所有输入应用相同的权重。最近,视觉Transformers(ViTs)在计算机视觉的各种任务中表现出令人印象深刻的性能。原创 2022-09-30 11:19:01 · 2637 阅读 · 0 评论 -
ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer
近年来,卷积神经网络(CNN)在计算机视觉领域占据主导地位,这归因于其建模逼真图像的能力,从局部感知到全局感知。虽然它们已被广泛应用于各种视觉任务,但在整体视觉感知方面仍存在不足。这种全局视图对于下游任务(如对象检测和语义分割)至关重要。最近,ViT及其后续采用变压器编码器来处理图像任务,由于具有全局感受野,因此取得了与CNN相当的性能。不过,由于全局自注意力是整个序列的二次计算,因此对 transformer 的感知需要进行大量的计算。原创 2022-09-02 09:00:06 · 1232 阅读 · 0 评论 -
Shunted Self-Attention via Multi-Scale Token Aggregation
最近的VisionTransformer(ViT)模型在各种计算机视觉任务中表现优异,这得益于它能够通过自注意对图像块或标记的长期依赖进行建模。然而,这些模型通常在每一层中每个token特征指定指定的感受野。这种约束不可避免地限制了每个自注意力层对多尺度特征的捕获能力,从而导致对不同尺度多目标图像的处理性能下降。为了解决这个问题,作者提出了一种新的通用策略,称为分流自我注意(SSA),它允许VIT在每个注意里层的混合尺度上建模注意力。......原创 2022-07-31 15:26:38 · 2823 阅读 · 0 评论 -
EDGEFORMER: IMPROVING LIGHT-WEIGHT CON- VNETS BY LEARNING FROM VISION TRANSFORMERS
上图(a) 一种广泛用于网络的残差块;(b) ViT块;(c) EdgeFormer block(一)、EDGEFORMER BLOCK(1)、利用全局循环卷积提取全局特征自注意力从整个空间位置学习全局特征,而卷积从局部感受野收集信息。为了克服这个问题,作者提出了全局循环卷积(GCC)。如上图所示,GCC有两种类型,一种是垂直方向的GCC(原创 2022-05-16 10:31:55 · 617 阅读 · 0 评论 -
Bottleneck Transformers for Visual Recognition
本文介绍了BoTNet,这是一个概念简单但功能强大的主干架构,它将自注意力整合到多个计算机视觉任务中,包括图像分类、对象检测和实例分割。通过在ResNet的最后三个瓶颈块中用全局自注意力替换空间卷积,而不做其他更改,本方法在实例分割和对象检测方面显著改进了基线,同时也减少了参数,延迟开销最小。作者还指出了如何将自注意力的ResNet瓶颈块视为转换器块。在没有任何提示的情况下,最后,作者还提出了一种简单的BoTNet网络图像分类设计。原创 2022-04-28 18:50:48 · 2509 阅读 · 0 评论 -
SwinTransformer细节及代码实现(pytorch版本)
作者分析表明,Transformer从NLP迁移到CV上没有大放异彩主要有两点原因:两个领域涉及的scale不同,NLP的scale是标准固定的,而CV的scale变化范围非常大。CV比起NLP需要更大的分辨率,而且CV中使用Transformer的计算复杂度是图像尺度的平方,这会导致计算量过于庞大。原创 2022-04-06 20:40:27 · 23896 阅读 · 0 评论 -
Transformer详解
近期Transformer MLP系列模型的出现,增加了CV领域的多样性。但是Transformer这一不同领域的模型对学习者来说需要一个细致的学习过程.下面就是本菜鸟总结学习路线。原创 2021-12-29 10:19:35 · 78350 阅读 · 5 评论
分享