00000cj-优快云博客

原创 SOLOv2（NeurIPS 2020）论文与代码解读

本文针对SOLO中存在的三个影响性能的瓶颈提出了对应的优化方法，提出了SOLOv2。

2024-08-07 16:46:51 1957 1

原创 Fast NMS和Matrix NMS解读

Fast-NMS&Matrix-NMS

2024-08-07 14:17:28 1671

由于deep CNNs的成功，作者也系统研究了随深度变化ViT性能的变化，其中hidden dimension和head数量分别固定为384和12，然后堆叠不同数量的Transformer block（从12到32），结果如图1所示，可以看到，随着模型深度的增加，分类精度提升缓慢，饱和速度较快，且达到24个block后，性能不再有提升。之前在CNN中也存在这个问题，但随着残差连接的提出，该问题得到了解决。

2024-08-02 11:01:25 982

原创 SOLO（ECCV 2020）论文与代码解读

本文提出了一种新的实例分割算法SOLO（Segment Objects by Locations），提出了一种全新的实例分割视角，将实例分割任务转换为一个分类可以解决的问题。具体而言，SOLO通过引入“实例类别”的概念，根据实例的中心位置和大小将类别分配给每个像素，从而将实例分割任务简化为一个分类问题。这样可以直接在像素级别生成实例掩码，而无需边界框或像素嵌入学习和分组处理。

2024-07-29 23:03:58 1457

原创 RepViT（CVPR 2024）论文解读

该研究旨在从ViT的角度重新审视轻量级CNN的高效设计，并强调其在移动设备上的前景。具体来说，研究团队通过集成轻量级ViTs的高效架构设计，逐步增强标准轻量级CNN（即MobileNetV3）的移动友好性，最终开发出一个新的轻量级纯CNN架构，即RepViT。

2024-07-28 23:07:14 4855

原创 DeiT III（Meta）论文解读

本研究旨在重新审视ViT的监督训练方法，并提出一种基于ResNet-50训练方法的简化版新训练策略。与现有的自动数据增强方法不同，本研究提出了一种简单的数据增强策略，并在图像分类、迁移学习和语义分割任务中进行了评估，结果表明该方法显著优于之前的完全监督训练方法。

2024-07-28 22:53:08 1307

原创 ResT v2 论文解读

ResTv2的设计目标是改进先前版本ResTv1的结构，以提高模型的效率和性能。ResTv1通过引入多尺度注意力机制（EMSA），在视觉识别任务中取得了良好的效果。然而，EMSA的下采样操作会损失部分重要信息，特别是在早期阶段。为了弥补这一问题，ResTv2引入了上采样操作，构建了独立的卷积沙漏结构，以更高效地捕捉局部信息。

2024-07-26 19:27:53 915

原创 ResT（NeurIPS 2021）论文解读

ResT通过以下创新来解决上述问题：记忆高效的多头自注意力（EMSA）：采用深度卷积来压缩内存，并在头之间投射交互，以保持多头的多样性。灵活的空间注意力位置编码：无需插值或微调，即可处理任意大小的输入图像。重叠卷积操作的patch嵌入：替代传统的tokenization方法，更好地捕捉低级特征。

2024-07-26 12:27:49 956

原创 Three things everyone should know about Vision Transformers（ECCV 2022, Meta）论文解读

本文提供了三点关于Vision Transformers（ViTs）的见解，这些见解基于一些简单且易于实现的ViTs变体。

2024-07-25 19:23:43 741

原创 ResNet strikes back（NeurIPS 2021，Meta）论文解读

本文重新评估了在整合这些最新进展的训练程序下，标准ResNet-50的性能。研究发现，许多文献中报告的ResNet-50在ImageNet上的表现（75.2%-79.5%）仍远未达到该架构的最大潜力。本文旨在通过优化训练程序，提高ResNet-50的性能，从而提供更强大的基准供未来工作使用。

2024-07-25 12:25:52 1427

原创 CMT（CVPR 2022）论文解读

本文旨在解决以下问题：现有Transformers在视觉任务中的性能仍不如类似规模的CNNs，如EfficientNets。Transformers在处理高分辨率图像时计算和内存成本较高。现有Transformers在提取低分辨率和多尺度特征方面存在困难，影响了在密集预测任务（如目标检测和语义分割）中的表现。

2024-07-24 14:43:24 1456

原创 NextViT（ByteDance）论文解读

本文的出发点是设计一种视觉神经网络，能够像CNN一样快速推理，并且像ViTs一样强大。现有的很多工作尝试通过设计更高效的空间注意力机制来缓解MHSA的二次计算复杂性，或者结合高效的卷积block和强大的Transformer block来设计CNN-Transformer混合架构，以在准确性和延迟之间取得更好的平衡。然而，这些现有的混合架构在下游任务（如分割和检测）中容易导致性能饱和，并且无法同时具备高效性和性能。

2024-07-24 12:26:05 622

原创 CeiT（ICCV 2021, SenseTime）论文与代码解析

在DeiT中，使用CNN教师蒸馏的Transformer效果更好，这可能是“Transformer通过蒸馏继承的归纳偏置”的功劳。此外作者重新审视了Transformer，总结了纯Transformer架构在视觉任务中的几个主要问题：

2024-07-23 15:57:18 1379

原创 BoTNet（CVPR 2021）速读

传统的CNN通过堆叠多个卷积层来捕捉特征的全局依赖，但这种方法需要大量的计算资源。自注意力机制（如Transformer）在自然语言处理（NLP）任务中已被证明能有效建模长距离依赖，且计算效率高。因此，本文提出了一种结合卷积和自注意力的混合架构BoTNet，通过在ResNet的最后三个瓶颈块中引入多头自注意力（MHSA），在不显著增加计算开销的情况下，显著提升了实例分割和目标检测的性能。

2024-07-23 12:18:20 342

原创 Vision Permutator（TPAMI 2022）论文与代码解析

现有的MLP模型在编码空间信息时通常会将空间维度展开并沿着展平的维度进行线性投影，这样会丢失由二维特征表示携带的位置信息。为了解决这个问题，本文提出了Vision Permutator，一种新的纯MLP结构的网络，它分别沿着高度和宽度维度进行线性投影，从而保留精确的位置信息并捕获长距离依赖关系。在不依赖于空间卷积或注意力机制的情况下，达到或超过了大多数CNN和视觉Transformer的性能。

2024-07-22 22:16:43 859

原创 ResNeSt

ResNeXt有三种等价的实现方式，其中组卷积的实现最简洁。这里为了实现简便，作者也将原始的先cardinal group后radix group的方式等价转换成了下图的方式，其中将不同cardinal group中同一radix索引的group放到一起，变成了先radix后cardinal的分组形式，这样就可以通过组卷积来实现。，对应的就是图4每个radix group里第一个1x1卷积，按照图4实际应该有2x4=8列，即8个输出通道数为80/2/4=10的1x1卷积，这里将8个卷积合并到一起了。

2024-07-22 22:15:13 876

原创 SegFormer（NeurIPS 2021，Nvidia）论文解读

尽管ViT和SETR在语义分割中取得了一定的成功，但它们存在一些限制，如输出单尺度低分辨率特征、高计算成本等。此外，现有方法大多关注Transformer编码器的设计，而忽视了解码器对进一步改进的重要性。因此，本文提出了SegFormer，一个同时考虑效率、准确性和鲁棒性的语义分割框架。

2024-07-19 15:02:57 1271

原创 VOLO（TAPMI 2022, Sea）论文与代码解析

作者发现ViTs在ImageNet分类中的主要限制因素是其在将细粒度特征编码到token表示中的低效性。为了解决这个问题，本文引入了一种新的Outlook注意力机制，并提出了一种简单且通用的架构，称为Vision Outlooker（VOLO）。

2024-07-19 13:01:20 1190

原创 Token Labeling（NeurIPS 2021, ByteDance）论文解读

本文提出了一种新的训练目标——token labeling，旨在利用所有的图像patch token进行密集的训练损失计算，而不仅仅依赖于额外的class token。通过这种方式，每个patch token都能获得由machine annotator生成的单独的、位置特定的监督，从而提升模型的性能。

2024-07-18 23:30:16 1143

原创 Re-labeling ImageNet（CVPR 2021, Naver）

本文的出发点是解决 ImageNet 数据集中标签噪声的问题，特别是图像中包含多个类别但只有单标签注释的情况。研究人员提出重新标注 ImageNet 训练集，以多标签和定位标签的方式提供更准确的监督信号。

2024-07-18 14:20:30 877

原创 Early Convolutions Help Transformers See Better（NeurIPS 2021, Meta）

本文的出发点是解决 ViT 模型在优化性方面的问题。作者假设问题主要出现在 ViT 的早期视觉处理部分，即 "patchify" 过程，这是通过一个大的步幅和大核卷积来实现的。这种设计与典型卷积层的设计选择相矛盾。为了验证这个假设，作者将 ViT 的 "patchify" 过程替换为一个由少量叠加的 3×3 卷积组成的简单对照组。

2024-07-17 10:00:56 1083

原创 TRT-ViT（ByteDance）

本文旨在解决现有Transformer在实际部署中的效率瓶颈，提出以TensorRT在特定硬件上的延迟作为直接效率反馈。

2024-07-17 09:47:08 865

原创 SETR（CVPR 2021，复旦大学）

作者认为现有的基于FCN的架构在处理长距离依赖信息时存在局限性，这是因为感受野仍然有限。为了克服这一限制，作者提出将语义分割视为序列到序列的预测任务，并使用纯Transformer（不包含卷积和分辨率降低）来编码图像。

2024-07-16 21:20:49 852

原创 RepLKNet（CVPR 2022, MEGVII）

本文的出发点是探讨在现代CNN中引入大卷积核的设计，试图通过使用大卷积核来缩小CNN与ViT之间的性能差距。

2024-07-16 21:07:30 1342

原创 DaViT（ECCV 2022，Microsoft）

DaViT通过引入“空间token”和“通道token”来同时捕捉全局上下文和局部信息，并保持计算效率。通过交替使用这两种自注意力机制，DaViT能够有效地处理高分辨率图像，同时保持计算成本的线性增长。

2024-07-06 15:19:11 805

原创 MViT v2（CVPR 2022，Meta）论文与代码解析

本文提出了一种改进的多尺度视觉Transformer (MViTv2)，通过引入分解相对位置嵌入和残差池化连接，来提升图像分类、目标检测和视频分类任务的性能。MViTv2在ImageNet分类、COCO检测和Kinetics视频识别任务中均表现出色，超越了现有的工作。

2024-07-05 23:49:53 2119

原创 MViT（ICCV 2021, Meta）论文解读

MViT解决了现有视觉Transformer依赖大量外部预训练数据且计算和参数消耗大的问题。该模型在无需大规模外部预训练数据的情况下，显著提升了视频识别任务的性能。

2024-07-05 14:01:36 1105

原创 Twins（NeurIPS 2021, Meituan）原理与代码解析

本文提出了两个新的视觉Transformer架构：Twins-PCPVT和Twins-SVT。Twins-PCPVT基于PVT和CPVT，通过使用条件位置编码（CPE）替代绝对位置编码，解决了PVT在处理变尺寸输入时的性能问题。 Twins-SVT提出了一种简单但高效的空间分离自注意力（SSSA）机制，包括局部分组自注意力（LSA）和全局子采样自注意力（GSA），以同时捕获短距离和长距离信息。

2024-07-04 14:03:30 828

原创 MaxViT（ECCV 2022, Google）论文与代码解析

MaxViT 提出了一种新的视觉模型架构，结合了局部和全局的注意力机制，以解决传统自注意力模型在计算复杂度和效率上的不足。通过这种方式，MaxViT 能在处理大尺寸图像时保持高效，同时提升模型性能。

2024-07-04 14:02:32 2001

原创 CoAtNet（NeurIPS 2023, Google）论文解读

作者认为，Transformers可能缺乏卷积网络所拥有的某些理想的归纳偏差（inductive bias），这导致它们需要大量的数据和计算资源来补偿。因此本文主要讨论了如何将卷积神经网络（ConvNets）和自注意力机制（Transformers）结合在一起，以实现更好的图像分类性能。

2024-07-03 21:22:53 1666

原创 EfficientFormer v2（ICCV 2023, Snap）原理与代码解析

本文在EfficientFormer的基础上，重新审视了ViTs的设计选择，并提出了一种低延迟和参数效率高的新型supernet。通过引入一种新的细粒度联合搜索策略，该模型可以在优化延迟和参数数量的同时，找到高效的架构。

2024-07-03 20:56:43 2014

原创 EfficientFormer（NeurIPS 2022）论文与代码解读

虽然 ViT 模型在计算机视觉任务中取得了显著进展，但由于参数数量巨大和模型设计（如注意力机制）的原因，其推理速度通常比轻量级卷积网络（如 MobileNet）慢许多。因此，在资源受限的硬件（如移动设备）上部署 ViT 具有很大的挑战。为了使 Transformer 模型能够在移动设备上实现高性能且低延迟的推理，本文研究了现有 ViT 模型的设计缺陷，并提出了一种新的维度一致的纯 Transformer 设计范式。通过延迟驱动的瘦身方法，EfficientFormer 系列模型在性能和速度上都表现出了显

2024-07-01 19:48:54 1392

原创 CrossViT（ICCV 2021，IBM）论文与代码解读

视觉Transformer（ViT）在图像分类方面相比卷积神经网络（CNN）取得了令人瞩目的成果，激发了作者对多尺度特征表示的兴趣，本文研究了如何在Transformer模型中学习多尺度特征表示以提高图像分类的性能。作者提出了一个双分支Transformer，以结合不同大小的图像patch（即Transformer中的token）来生成更强的图像特征。这个方法旨在解决如何在视觉Transformer中有效地融合多尺度特征的问题。

2024-07-01 19:24:11 2500

原创 MetaFormer（CVPR 2022，Sea）

文章的出发点是验证一个假设，即Transformer模型的成功主要归因于其通用架构MetaFormer，而不是特定的token mixer（如attention）。为验证这一假设，研究者将Transformer中的attention模块替换为一个简单的空间池化操作，形成一个新的模型——PoolFormer。

2024-06-28 12:30:46 1397

原创 ConvMixer 论文与代码解析

文章讨论了卷积神经网络（CNN）在视觉任务中的主导地位，以及近期基于Transformer模型的架构（特别是Vision Transformer，ViT）在某些情况下可能超越了CNN的性能。ViT由于自注意力层的二次运行时间复杂度，需要使用patch embeddings来处理更大的图像尺寸。作者探讨了ViT的高性能是否源于Transformer架构本身的强大能力，还是部分归因于使用patches作为输入表示。

2024-06-27 12:15:22 1027

原创 Revisiting ResNets（NeurIPS 2021, Google）

这篇文章探讨了计算机视觉中的模型架构、训练方法和扩展策略（scaling strategy），并重新审视了ResNet的这些方面，作者发现，训练方法和模型缩放策略可能比架构变化更重要。

2024-06-27 12:15:04 1109

原创 gMLP（NeurIPS 2021）原理与代码解析

gMLP将token_mlp（即这里的spatial gating unit）和channel_mlp放到了一起，只包含一个skip-connection，而不是像MLP-Mixer和ResMLP中每个mlp都采用一个skip-connection。此外block内的结构和MLP-Mixer以及ResMLP中的先token_mlp后channel_mlp不同，这里采用了channel+token+channel的形式。最后作者专门为token_mlp设计了一个门控机制，将输入split开一分为二，一半经过s

2024-06-26 09:49:49 2667

空空如也

空空如也