Backbones
文章平均质量分 92
分类Backbone
00000cj
计算机视觉,论文阅读记录
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Vision Permutator(TPAMI 2022)论文与代码解析
现有的MLP模型在编码空间信息时通常会将空间维度展开并沿着展平的维度进行线性投影,这样会丢失由二维特征表示携带的位置信息。 为了解决这个问题,本文提出了Vision Permutator,一种新的纯MLP结构的网络,它分别沿着高度和宽度维度进行线性投影,从而保留精确的位置信息并捕获长距离依赖关系。 在不依赖于空间卷积或注意力机制的情况下,达到或超过了大多数CNN和视觉Transformer的性能。原创 2024-07-22 22:16:43 · 993 阅读 · 0 评论 -
ResNeSt
ResNeXt有三种等价的实现方式,其中组卷积的实现最简洁。这里为了实现简便,作者也将原始的先cardinal group后radix group的方式等价转换成了下图的方式,其中将不同cardinal group中同一radix索引的group放到一起,变成了先radix后cardinal的分组形式,这样就可以通过组卷积来实现。,对应的就是图4每个radix group里第一个1x1卷积,按照图4实际应该有2x4=8列,即8个输出通道数为80/2/4=10的1x1卷积,这里将8个卷积合并到一起了。原创 2024-07-22 22:15:13 · 988 阅读 · 0 评论 -
ConvMixer 论文与代码解析
文章讨论了卷积神经网络(CNN)在视觉任务中的主导地位,以及近期基于Transformer模型的架构(特别是Vision Transformer,ViT)在某些情况下可能超越了CNN的性能。ViT由于自注意力层的二次运行时间复杂度,需要使用patch embeddings来处理更大的图像尺寸。作者探讨了ViT的高性能是否源于Transformer架构本身的强大能力,还是部分归因于使用patches作为输入表示。原创 2024-06-27 12:15:22 · 1308 阅读 · 0 评论 -
gMLP(NeurIPS 2021)原理与代码解析
gMLP将token_mlp(即这里的spatial gating unit)和channel_mlp放到了一起,只包含一个skip-connection,而不是像MLP-Mixer和ResMLP中每个mlp都采用一个skip-connection。此外block内的结构和MLP-Mixer以及ResMLP中的先token_mlp后channel_mlp不同,这里采用了channel+token+channel的形式。最后作者专门为token_mlp设计了一个门控机制,将输入split开一分为二,一半经过s原创 2024-06-26 09:49:49 · 3867 阅读 · 0 评论 -
ResMLP(NeurIPS 2021,Meta)论文与代码解析
ResMLP和Google的MLP-Mixer的发布只隔了3天,后者的介绍具体见MLP-Mixer(NeurIPS 2021, Google)论文与源码解读-优快云博客。两者都是基于MLP架构的视觉模型,但在具体实现细节上有一些区别。原创 2024-06-26 00:07:25 · 2950 阅读 · 0 评论 -
MLP-Mixer(NeurIPS 2021, Google)论文与源码解读
本文的出发点是挑战计算机视觉领域中使用卷积神经网络(CNN)和注意力机制(如Vision Transformer, ViT)的传统方法,本文提出了一种完全基于多层感知机(MLP)的架构MLP-Mixer,旨在证明卷积和注意力并非实现高性能图像分类所必需的技术。原创 2024-06-25 12:30:09 · 2816 阅读 · 0 评论 -
ConvNeXt(CVPR 2022)论文解读
本文重新审视了ConvNet的设计空间,并测试了一个纯ConvNet能够达到的性能极限。作者从标准的ResNet出发,逐步“现代化”其设计,使其接近视觉Transformer的设计,并在此过程中发现了一些关键组件,这些组件有助于缩小性能差距。原创 2024-06-01 00:53:05 · 6975 阅读 · 0 评论 -
Transformer iN Transformer(NeurIPS 2021)原理与代码解析
文章指出,在局部图像块内部的注意力对于构建高性能的视觉 Transformer 同样至关重要。作者提出了一种新的架构,Transformer in Transformer (TNT),通过在局部图像块内进一步划分更小的图像块,并计算这些小块之间的注意力,以更精细地提取特征。原创 2024-05-31 09:46:08 · 1806 阅读 · 0 评论 -
Vision Transformer, ViT(ICLR 2021)原理与代码解析
与以往将 Transformer 与 CNN 结合或用 Transformer 替代 CNN 的某些部分不同,本文直接将标准的 Transformer 应用于图像,几乎没有修改。原创 2024-05-24 20:11:08 · 3002 阅读 · 0 评论 -
CBNet v2 论文解读
本文在CBNet v1的基础上,提出了一种新的辅助训练方法、一个更好的连接策略以及一个剪枝策略,综合这些得到了一个新的骨干网络CBNet v2。除了取得了更好的性能表现,在泛化性和兼容性(和模型集成以及特征增强网络如DCN和HRNet的兼容)都得到了提升。原创 2024-03-11 19:29:26 · 1065 阅读 · 0 评论 -
CBNet(AAAI 2020)论文解析
本文提出了一种新的方法,通过聚合多个相同的backbone来构建一个更强大的针对目标检测的骨干网络,称为复合骨干网络(Composite Backbone Network, CBNet),显著提高了各种检测模型的性能。原创 2024-03-11 19:17:26 · 1321 阅读 · 0 评论 -
DetNet论文速读
下面介绍一下DetNet的具体结构。我们采用ResNet-50作为baseline,它被广泛用于各种检测模型的backbone。为了公平比较,前4个stage与原始的ResNet-50保持一致。为目标检测设计一个有效的骨干网络存在两个挑战。一方面,保持深度神经网络的空间分辨率会消耗大量的时间和内存。另一方面,减少降采样比例等价于减少有效的感受野,这对许多视觉任务,如图像分类和语义分割都是有害的。DetNet 经过精心设计,以解决这两个挑战。原创 2024-03-08 17:43:52 · 731 阅读 · 0 评论 -
VoVNet(CVPR workshop 2019)原理与代码解析
为了解决DenseNet的低效问题,本文提出了一种高效的架构VoVNet,由One-Shot Aggregation(OSA)组成。OSA不仅保留了DenseNet的优势即具有多种感受野的多样性特征,同时通过在最后一个特征图只聚合所有特征一次克服了密集连接的低效问题。基于VoVNet的检测模型与基于DenseNet的检测模型相比,速度快了2x,能耗减少了1.6x - 4.1x。同时与在速度和能耗方面还优于广泛使用的ResNet骨干网络的检测模型。特别是,小目标的检测性能比DenseNet和ResNet得到了原创 2024-02-24 16:13:34 · 2224 阅读 · 0 评论 -
RegNet(CVPR 2020)原理与代码解析
本文提出了一个新的网络设计范式,并不是专注于设计单个网络实例,而是设计了一个网络设计空间network design space。整个过程类似于经典的手工网络设计,但被提升到了设计空间的水平。使用本文的方法,作者探索了网络设计的结构方面,并得到了一个由简单、规则的网络构成了低维设计空间并称之为RegNet。RegNet设计空间提供了各个范围flop下简单、快速的网络。在类似的训练设置和flops下,RegNet的效果超过了EfficientNet同时在GPU上快了5倍。原创 2024-02-22 22:22:31 · 8469 阅读 · 0 评论 -
Deep Layer Aggregation(CVPR 2018)原理与代码解析
骨干网络的设计主要关注于设计出更深更宽的网络,但是如何更好的聚合不同layer和block的信息缺乏足够的关注。虽然skip connection已经被用来组合不同的网络层,但这些连接本身都是“浅层的”并且只是通过简单的单步操作进行融合。本文通过更深层的聚合来更好的实现跨层信息的融合,提出了深层聚合结构deep layer aggregation,通过迭代、分层级的合并特征,使得网络具有更高的精度以及更少的参数。原创 2024-02-21 20:49:37 · 2270 阅读 · 0 评论 -
FasterNet(CVPR 2023)论文解读
为了实现更快的网络,本文重新研究了常用的operator并证明了这种low FLOPS主要是算子的频繁内存访问frequent memory access导致的,尤其是深度卷积depthwise convolution。因此,本文提出了一种新的partial convolution (PConv),通过同时减少冗余的计算和内存访问,更高效的提取空间特征。基于Pconv,本文进一步提出了FasterNet,一种新的神经网络家族。它在各种设备上获得了比其它网络更快的运行速度,同时又没有影响在各种视觉任务上的原创 2024-01-13 21:23:38 · 13284 阅读 · 0 评论 -
高分辨率网络HRNet代码解析
本文设计了一种新的网络结构HRNet,以高分辨率子网络作为开始,逐步添加分辨率由高到低的子网络,并行连接多分辨率子网络,并且反复的进行多分辨率的信息融合,从而得到丰富的高分辨率表示,并且在整个网络过程中都保持高分辨率的表示。原创 2023-10-05 14:55:54 · 886 阅读 · 0 评论 -
VanillaNet 原理与代码解读
本文提出了VanillaNet,一种新的神经网络架构,有着简单而优雅的设计,同时在视觉任务中保持了显著的性能。VanillaNet通过舍弃过多的深度、shortcut以及self-attention等复杂的操作,解决了复杂度的问题,非常适合资源有限的环境。原创 2023-06-24 18:28:29 · 4901 阅读 · 2 评论 -
PP-LCNet 原理解析
尽管有很多轻量网络,但由于MKLDNN的限制,这些网络的速度在使用了MKLDNN的英特尔CPU上并不理想。本文设计了一个针对Inter-CPU的网络PP-LCNet,效果超过了大多数SOTA轻量模型。原创 2023-06-06 10:24:43 · 1675 阅读 · 0 评论 -
RepGhost 解析
为了解决上述问题,本文提供了一个新的视角来实现特征重用——结构重参数化。本文并不仅仅是将重参数化技术直接应用到现有的Ghost module中,而是利用重参数技术改进Ghost module从而实现更快的推理。作者通过重参数化实现隐式特征重用,替代了拼接操作,提出了一种新的在硬件上高效的RepGhost module。然后又在RepGhost模块的基础上设计了一个高效的RepGhost bottleneck以及RepGhostNet。原创 2023-05-28 16:21:14 · 1956 阅读 · 0 评论 -
EfficientNet V2(ICML 2021)原理与代码解析
基于这些观察结果,作者设计了一个包含额外算子ops如Fused-MBConv的搜索空间,并应用训练感知training-aware的NAS和缩放scaling来联合优化模型精度、训练速度和参数大小。最终搜索到的网络即为EfficientNetV2。此外,本文还提出了一种改进的渐进式训练progressive learning方法:在训练的早期用较小的输入和较弱的正则化,随着训练的进行,逐渐增大输入分辨率和正则化的强度。基于这种训练方法,可以加快训练速度而不会导致准确率下降。原创 2023-05-17 19:08:39 · 2503 阅读 · 3 评论 -
MobileOne(CVPR 2023)原理与代码解析
针对移动设备的高效深度学习架构的设计和部署已经取得了很大进展,很多轻量模型在减少浮点操作(floating-point operations, FLOPS)和参数量(parameter count)的同时不断提高精度。但是就延迟latency而言,这些指标没有很好的与模型的效率关联起来,像FLOPs这样的指标没有考虑到内存访问成本memory access cost和模型并行的程度degree of parallelism,而后者在推理时可能会对延迟产生很大的影响。参数量也与延迟没有很好的相关性,比如共享参原创 2023-05-14 13:48:34 · 6047 阅读 · 0 评论 -
EfficientNet(ICML 2019)原理与代码解析
本文通过研究发现平衡深度、宽度、分辨率三个维度非常重要,并且发现这种平衡可以通过一个常量缩放因子来实现。基于此提出了一种复合缩放方法compound scaling method,与传统的任意缩放某个维度的方法不同,该方法用一组固定的缩放系数均匀地同时缩放三个维度。此外,缩放方法的有效性很大程度上取决于baseline模型,因此作者通过neural architecture search设计了一个新的基线模型,然后通过本文的缩放方法得到了一系列的模型EfficientNets。原创 2023-04-01 16:32:50 · 950 阅读 · 0 评论 -
SPP: Spatial Pyramid Pooling
paper:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognitioncode: https://github.com/yueruchen/sppnet-pytorch本文的创新点:Spatial Pyramid Pooling(SPP) Multi-Size Training Full Image Representation Multi-View Testing SPP in O...原创 2022-05-01 17:11:00 · 622 阅读 · 0 评论 -
DenseNet
paper:Densely Connected Convolutional Networks Memory-Efficient Implementation of DenseNetscode: https://github.com/pytorch/vision/blob/main/torchvision/models/densenet.py在本篇文章中,作者提出了Dense Convolutional Network (DenseNet),下图是...原创 2022-04-09 14:54:59 · 3680 阅读 · 0 评论 -
SKNet: Selective Kernel Networks
Selective Kernel Networkshttps://github.com/implus/PytorchInsightSKNet——SENet孪生兄弟篇 - 知乎https://github.com/ResearchingDexter/SKNet_pytorchhttps://github.com/pppLang/SKNet原创 2022-02-08 12:52:33 · 2127 阅读 · 0 评论 -
SENet: Squeeze-and-Excitation Networks
Squeeze-and-Excitation Networks原创 2022-01-15 13:00:49 · 2310 阅读 · 0 评论 -
Res2Net
Res2Net: A New Multi-scale Backbone ArchitectureThe Res2Net strategy exposes a new dimension, namely scale (the number of feature groups in the Res2Net block), as an essential factor in addition to existing dimensions of depth [57], width2, and cardin原创 2022-01-11 20:13:25 · 1462 阅读 · 0 评论 -
ResNeXt
Aggregated Residual Transformations for Deep Neural NetworksResNet和ResNeXt的block结构对比两者的参数量对比ResNeXt的三种实现方式具体实现通常采用Figure 3 (c)的group convolution的实现方式,比较Figure 1 Left 和 Figure 3 (c)可以发现改变的地方i.middle channel变了 ii.中间的3×3卷积采用了group=32的...原创 2022-01-09 16:16:36 · 1740 阅读 · 0 评论 -
ResNet
Deep Residual Learning for Image RecognitionBasicBlock和BottleNeckBottleNeck是BasicBlock的升级版,其功能也是构造子网络,resnet18和resnet34中使用了BasicBlock,而resnet50、resnet101、resnet152使用了Bottleneck构造网络。...原创 2021-12-29 23:05:29 · 1858 阅读 · 0 评论 -
ResNet变种
Bag of Tricks for Image Classification with Convolutional Neural Networks3. Efficient TraningLarget-batch trainingLinear scaling learning rate Learning rate warmup Zeroγ No bias decayLow-precision traningThe evaluation results for ResNet-50 a.原创 2022-01-01 13:54:20 · 904 阅读 · 1 评论
分享