Transformer
文章平均质量分 94
00000cj
计算机视觉,论文阅读记录
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DeepViT 论文与代码解析
由于deep CNNs的成功,作者也系统研究了随深度变化ViT性能的变化,其中hidden dimension和head数量分别固定为384和12,然后堆叠不同数量的Transformer block(从12到32),结果如图1所示,可以看到,随着模型深度的增加,分类精度提升缓慢,饱和速度较快,且达到24个block后,性能不再有提升。之前在CNN中也存在这个问题,但随着残差连接的提出,该问题得到了解决。原创 2024-08-02 11:01:25 · 1332 阅读 · 0 评论 -
RepViT(CVPR 2024)论文解读
该研究旨在从ViT的角度重新审视轻量级CNN的高效设计,并强调其在移动设备上的前景。具体来说,研究团队通过集成轻量级ViTs的高效架构设计,逐步增强标准轻量级CNN(即MobileNetV3)的移动友好性,最终开发出一个新的轻量级纯CNN架构,即RepViT。原创 2024-07-28 23:07:14 · 9646 阅读 · 0 评论 -
DeiT III(Meta)论文解读
本研究旨在重新审视ViT的监督训练方法,并提出一种基于ResNet-50训练方法的简化版新训练策略。与现有的自动数据增强方法不同,本研究提出了一种简单的数据增强策略,并在图像分类、迁移学习和语义分割任务中进行了评估,结果表明该方法显著优于之前的完全监督训练方法。原创 2024-07-28 22:53:08 · 1677 阅读 · 0 评论 -
ResT v2 论文解读
ResTv2的设计目标是改进先前版本ResTv1的结构,以提高模型的效率和性能。ResTv1通过引入多尺度注意力机制(EMSA),在视觉识别任务中取得了良好的效果。然而,EMSA的下采样操作会损失部分重要信息,特别是在早期阶段。为了弥补这一问题,ResTv2引入了上采样操作,构建了独立的卷积沙漏结构,以更高效地捕捉局部信息。原创 2024-07-26 19:27:53 · 1087 阅读 · 0 评论 -
ResT(NeurIPS 2021)论文解读
ResT通过以下创新来解决上述问题:记忆高效的多头自注意力(EMSA):采用深度卷积来压缩内存,并在头之间投射交互,以保持多头的多样性。灵活的空间注意力位置编码:无需插值或微调,即可处理任意大小的输入图像。重叠卷积操作的patch嵌入:替代传统的tokenization方法,更好地捕捉低级特征。原创 2024-07-26 12:27:49 · 1060 阅读 · 0 评论 -
Three things everyone should know about Vision Transformers(ECCV 2022, Meta)论文解读
本文提供了三点关于Vision Transformers(ViTs)的见解,这些见解基于一些简单且易于实现的ViTs变体。原创 2024-07-25 19:23:43 · 873 阅读 · 0 评论 -
CMT(CVPR 2022)论文解读
本文旨在解决以下问题:现有Transformers在视觉任务中的性能仍不如类似规模的CNNs,如EfficientNets。Transformers在处理高分辨率图像时计算和内存成本较高。现有Transformers在提取低分辨率和多尺度特征方面存在困难,影响了在密集预测任务(如目标检测和语义分割)中的表现。原创 2024-07-24 14:43:24 · 1920 阅读 · 0 评论 -
NextViT(ByteDance)论文解读
本文的出发点是设计一种视觉神经网络,能够像CNN一样快速推理,并且像ViTs一样强大。现有的很多工作尝试通过设计更高效的空间注意力机制来缓解MHSA的二次计算复杂性,或者结合高效的卷积block和强大的Transformer block来设计CNN-Transformer混合架构,以在准确性和延迟之间取得更好的平衡。然而,这些现有的混合架构在下游任务(如分割和检测)中容易导致性能饱和,并且无法同时具备高效性和性能。原创 2024-07-24 12:26:05 · 795 阅读 · 0 评论 -
CeiT(ICCV 2021, SenseTime)论文与代码解析
在DeiT中,使用CNN教师蒸馏的Transformer效果更好,这可能是“Transformer通过蒸馏继承的归纳偏置”的功劳。此外作者重新审视了Transformer,总结了纯Transformer架构在视觉任务中的几个主要问题:原创 2024-07-23 15:57:18 · 1811 阅读 · 0 评论 -
BoTNet(CVPR 2021)速读
传统的CNN通过堆叠多个卷积层来捕捉特征的全局依赖,但这种方法需要大量的计算资源。自注意力机制(如Transformer)在自然语言处理(NLP)任务中已被证明能有效建模长距离依赖,且计算效率高。因此,本文提出了一种结合卷积和自注意力的混合架构BoTNet,通过在ResNet的最后三个瓶颈块中引入多头自注意力(MHSA),在不显著增加计算开销的情况下,显著提升了实例分割和目标检测的性能。原创 2024-07-23 12:18:20 · 448 阅读 · 0 评论 -
VOLO(TAPMI 2022, Sea)论文与代码解析
作者发现ViTs在ImageNet分类中的主要限制因素是其在将细粒度特征编码到token表示中的低效性。为了解决这个问题,本文引入了一种新的Outlook注意力机制,并提出了一种简单且通用的架构,称为Vision Outlooker(VOLO)。原创 2024-07-19 13:01:20 · 1406 阅读 · 0 评论 -
Token Labeling(NeurIPS 2021, ByteDance)论文解读
本文提出了一种新的训练目标——token labeling,旨在利用所有的图像patch token进行密集的训练损失计算,而不仅仅依赖于额外的class token。通过这种方式,每个patch token都能获得由machine annotator生成的单独的、位置特定的监督,从而提升模型的性能。原创 2024-07-18 23:30:16 · 1399 阅读 · 0 评论 -
Early Convolutions Help Transformers See Better(NeurIPS 2021, Meta)
本文的出发点是解决 ViT 模型在优化性方面的问题。作者假设问题主要出现在 ViT 的早期视觉处理部分,即 "patchify" 过程,这是通过一个大的步幅和大核卷积来实现的。这种设计与典型卷积层的设计选择相矛盾。为了验证这个假设,作者将 ViT 的 "patchify" 过程替换为一个由少量叠加的 3×3 卷积组成的简单对照组。原创 2024-07-17 10:00:56 · 1257 阅读 · 0 评论 -
TRT-ViT(ByteDance)
本文旨在解决现有Transformer在实际部署中的效率瓶颈,提出以TensorRT在特定硬件上的延迟作为直接效率反馈。原创 2024-07-17 09:47:08 · 1068 阅读 · 0 评论 -
DaViT(ECCV 2022,Microsoft)
DaViT通过引入“空间token”和“通道token”来同时捕捉全局上下文和局部信息,并保持计算效率。通过交替使用这两种自注意力机制,DaViT能够有效地处理高分辨率图像,同时保持计算成本的线性增长。原创 2024-07-06 15:19:11 · 984 阅读 · 0 评论 -
MViT v2(CVPR 2022,Meta)论文与代码解析
本文提出了一种改进的多尺度视觉Transformer (MViTv2),通过引入分解相对位置嵌入和残差池化连接,来提升图像分类、目标检测和视频分类任务的性能。MViTv2在ImageNet分类、COCO检测和Kinetics视频识别任务中均表现出色,超越了现有的工作。原创 2024-07-05 23:49:53 · 3076 阅读 · 0 评论 -
MViT(ICCV 2021, Meta)论文解读
MViT解决了现有视觉Transformer依赖大量外部预训练数据且计算和参数消耗大的问题。该模型在无需大规模外部预训练数据的情况下,显著提升了视频识别任务的性能。原创 2024-07-05 14:01:36 · 1379 阅读 · 0 评论 -
Twins(NeurIPS 2021, Meituan)原理与代码解析
本文提出了两个新的视觉Transformer架构:Twins-PCPVT和Twins-SVT。Twins-PCPVT基于PVT和CPVT,通过使用条件位置编码(CPE)替代绝对位置编码,解决了PVT在处理变尺寸输入时的性能问题。 Twins-SVT提出了一种简单但高效的空间分离自注意力(SSSA)机制,包括局部分组自注意力(LSA)和全局子采样自注意力(GSA),以同时捕获短距离和长距离信息。原创 2024-07-04 14:03:30 · 1115 阅读 · 0 评论 -
MaxViT(ECCV 2022, Google)论文与代码解析
MaxViT 提出了一种新的视觉模型架构,结合了局部和全局的注意力机制,以解决传统自注意力模型在计算复杂度和效率上的不足。通过这种方式,MaxViT 能在处理大尺寸图像时保持高效,同时提升模型性能。原创 2024-07-04 14:02:32 · 2707 阅读 · 0 评论 -
CoAtNet(NeurIPS 2023, Google)论文解读
作者认为,Transformers可能缺乏卷积网络所拥有的某些理想的归纳偏差(inductive bias),这导致它们需要大量的数据和计算资源来补偿。因此本文主要讨论了如何将卷积神经网络(ConvNets)和自注意力机制(Transformers)结合在一起,以实现更好的图像分类性能。原创 2024-07-03 21:22:53 · 2213 阅读 · 0 评论 -
EfficientFormer v2(ICCV 2023, Snap)原理与代码解析
本文在EfficientFormer的基础上,重新审视了ViTs的设计选择,并提出了一种低延迟和参数效率高的新型supernet。通过引入一种新的细粒度联合搜索策略,该模型可以在优化延迟和参数数量的同时,找到高效的架构。原创 2024-07-03 20:56:43 · 2847 阅读 · 0 评论 -
EfficientFormer(NeurIPS 2022)论文与代码解读
虽然 ViT 模型在计算机视觉任务中取得了显著进展,但由于参数数量巨大和模型设计(如注意力机制)的原因,其推理速度通常比轻量级卷积网络(如 MobileNet)慢许多。因此,在资源受限的硬件(如移动设备)上部署 ViT 具有很大的挑战。为了使 Transformer 模型能够在移动设备上实现高性能且低延迟的推理,本文研究了现有 ViT 模型的设计缺陷,并提出了一种新的维度一致的纯 Transformer 设计范式。通过延迟驱动的瘦身方法,EfficientFormer 系列模型在性能和速度上都表现出了显原创 2024-07-01 19:48:54 · 1961 阅读 · 0 评论 -
CrossViT(ICCV 2021,IBM)论文与代码解读
视觉Transformer(ViT)在图像分类方面相比卷积神经网络(CNN)取得了令人瞩目的成果,激发了作者对多尺度特征表示的兴趣,本文研究了如何在Transformer模型中学习多尺度特征表示以提高图像分类的性能。作者提出了一个双分支Transformer,以结合不同大小的图像patch(即Transformer中的token)来生成更强的图像特征。这个方法旨在解决如何在视觉Transformer中有效地融合多尺度特征的问题。原创 2024-07-01 19:24:11 · 3737 阅读 · 0 评论 -
MetaFormer(CVPR 2022,Sea)
文章的出发点是验证一个假设,即Transformer模型的成功主要归因于其通用架构MetaFormer,而不是特定的token mixer(如attention)。为验证这一假设,研究者将Transformer中的attention模块替换为一个简单的空间池化操作,形成一个新的模型——PoolFormer。原创 2024-06-28 12:30:46 · 2137 阅读 · 0 评论 -
MobileViT v3 论文解读
MobileViT v1通过结合CNN和ViT的优势,已经取得了竞争性的结果,但其内部的融合块(fusion block)在模型扩展时存在挑战,并且学习任务复杂。本文提出改进MobileViT v1中的融合块,以解决扩展性和简化学习任务的问题。原创 2024-06-25 12:29:29 · 1772 阅读 · 0 评论 -
MobileViT v2(Apple)论文与代码解析
针对多头注意力高延迟和高计算成本的问题,本文提出了一种新的分离自注意力机制,通过逐元素操作计算自注意力,大大减少了计算复杂度和成本,将计算复杂度降至 \(O(k)\),使其更适合在资源受限的设备上运行。原创 2024-06-24 12:27:42 · 2888 阅读 · 0 评论 -
CaiT(ICCV 2021,Meta)论文与代码解析
对于深层视觉Transformer模型在训练过程中容易出现的不稳定性和性能瓶颈问题。本文通过引入LayerScale和Class-Attention,显著提高了深层模型的准确性和训练效果,使得这些模型在ImageNet等数据集上能够取得更好的表现。原创 2024-06-24 12:27:13 · 1980 阅读 · 0 评论 -
Talking-Heads Attention
本文提出了在softmax操作的前后引入跨注意力头维度的线性变换,从而使每个self-attention函数依赖于所有的key和query。原创 2024-06-21 17:01:56 · 965 阅读 · 0 评论 -
MobileViT(ICLR 2022,Apple)论文与代码解析
本文文解决了如何在移动设备上高效运行视觉任务的问题。具体来说,作者提出了一种名为MobileViT的模型,该模型通过结合CNNs和ViTs的优势,既保留了CNNs的轻量级和高效性,又引入了ViTs的全局信息处理能力。实验结果显示,MobileViT在多个任务和数据集上显著优于基于传统CNNs和ViTs的模型 。原创 2024-06-20 14:33:00 · 2144 阅读 · 0 评论 -
Swin Transformer V2(CVPR 2022)论文与代码解读
针对上述三个问题,本文提出了三种对应的解决方法:residual-post-norm and cosine attention:在模型架构中引入残差后规范化方法和余弦注意力机制,提高了大模型的训练稳定性和准确性。log-spaced continuous position bias(Log-CPB):这种新方法允许模型在不同窗口大小之间自由转移,解决了高低分辨率任务之间的迁移问题。自监督预训练方法(SimMIM):通过自监督学习减少对标注数据的需求,使得训练过程更加高效。原创 2024-06-13 23:32:23 · 9301 阅读 · 0 评论 -
Swin Transformer(ICCV 2021)论文与代码解析
层次化Transformer结构:Swin Transformer 构建了一个层次化的表示,通过逐渐合并图像块来创建不同尺度的特征图。Shifted Window机制:引入了Shifted Windows机制,通过限制在非重叠的局部窗口内进行自注意力计算,同时允许跨窗口连接,从而提高计算效率和模型的全局建模能力。原创 2024-06-13 18:59:28 · 2954 阅读 · 0 评论 -
CvT(ICCV 2021)论文与代码解读
本文解决了如何在保持ViT优点(如动态注意力机制、全局上下文建模和更好的泛化能力)的同时,引入卷积神经网络的优点(如局部感受野、权重共享和空间下采样)。具体来说,论文通过引入卷积的方式来增强ViT的局部信息捕捉能力和计算效率,从而在各种图像分类任务中取得更好的表现。原创 2024-06-10 17:37:55 · 1283 阅读 · 0 评论 -
T2T-ViT(ICCV 2021)论文与代码解析
本文解决了ViT在中等规模数据集上训练时性能不如CNN的问题。为此,作者提出了一种新的Tokens-to-Token Vision Transformer (T2T-ViT) 模型,通过改进图像切分和注意力机制设计来提升模型的训练效率和性能。原创 2024-06-10 17:36:31 · 1368 阅读 · 0 评论 -
PiT(ICCV 2021)原理与代码解析
论文解决了如何在ViT中引入空间维度转换的问题。具体来说,ViT在不同层之间保持相同的空间维度,而这与CNN的设计原则不同。CNN通过逐渐减小空间维度并增加通道维度来提升模型的表达能力和泛化性能。论文通过引入一种基于池化层的Vision Transformer(Pooling-based Vision Transformer,简称PiT),验证了这种空间维度转换在ViT中的有效性。原创 2024-06-08 09:55:46 · 1377 阅读 · 0 评论 -
PVT v2 原理与代码解析
针对PVT v1存在的问题,PVT v2引入了以下改进线性空间降维注意力:通过使用线性空间降维注意力(linear spatial reduction attention)来降低计算成本重叠的patch embedding:通过重叠的patch embedding来保留图像的局部连续性卷积FFN:通过引入卷积feed-forward network来增强特征表示能力,并去掉了固定大小的位置编码,采用zero padding位置编码,从而提高了处理任意大小输入的灵活性原创 2024-06-07 19:38:02 · 3387 阅读 · 0 评论 -
Pyramid Vision Transformer, PVT(ICCV 2021)原理与代码解读
为了解决上述问题,作者提出了 Pyramid Vision Transformer (PVT), PVT结合了卷积神经网络的金字塔结构和Transformer的全局感受野,旨在克服传统Transformer在处理密集预测任务时遇到的分辨率低、计算和内存开销大的问题。它可以作为 CNN 骨干网络的替代品,用于多种下游任务,包括图像级预测和像素级密集预测。具体包括:原创 2024-06-07 19:36:38 · 3455 阅读 · 0 评论 -
LeViT(ICCV 2021)原理与代码解析
Vision Transformer中的patch projection层通过16x16 stride=16的卷积实现,引发了作者对卷积与Transformer之间联系的思考。在卷积中,mask的空间平滑性来自于卷积过程中卷积核的重叠:临近的像素接收到相似的梯度。而在ViT中平滑掩膜可能是由于数据增强造成的,当一个图像出现两次且发生微小的平移时,相同的梯度经过每个filter,所以它可以学习这种空间平滑性。原创 2024-06-05 21:15:39 · 2114 阅读 · 0 评论 -
LocalViT 论文解读
本文旨在将CNNs的局部性机制引入到ViT中,以在不显著增加模型复杂度的情况下提高其性能。原创 2024-06-04 19:44:00 · 1601 阅读 · 0 评论 -
CPVT(ICLR 2023)论文解读
条件位置编码(Conditional Position Encoding,CPE):本文提出了一种新的位置编码方法CPE,通过卷积操作保留位置关系,使得模型在处理不同大小的输入图像时无需重新训练或进行复杂的插值,从而保持了平移等变性。位置编码生成器(Position Encoding Generator,PEG):通过一个简单的PEG实现CPE,它可以无缝地集成到当前的Transformer框架中。PEG通过局部邻域的动态编码,使得模型能够处理比训练期间见过的序列更长的输入序列。全局平均池化(GAP):原创 2024-06-02 22:30:51 · 2396 阅读 · 0 评论 -
TNT中transformer block的计算量和参数量的计算
本文对标准transformer block的FLOPs和参数量,以及TNT block中的FLOPs和参数量进行的详细的推导。原创 2024-05-31 12:36:10 · 1523 阅读 · 0 评论
分享