
图像分类
文章平均质量分 95
說詤榢
苦而不言,喜而不语。
展开
-
【图像分类】2022-UniFormer IEEE
local redundancy: 视觉数据在局部空间/时间/时空邻域具有相似性,这种局部性质容易引入大量低效的计算。global dependency: 要实现准确的识别,需要动态地将不同区域中的目标关联,建模长时依赖。现有的两大主流模型CNN和ViT,往往只关注解决问题之一。convolution只在局部小邻域聚合上下文,天然地避免了冗余的全局计算,但受限的感受野难以建模全局依赖。原创 2022-10-14 20:29:31 · 1136 阅读 · 2 评论 -
【图像分类】2022-MetaFormer CVPR
本文提出Transformer的成功并不是源于其自注意力结构,而是其广义架构,通常大家普遍认为基于自注意力的模块对于Transformer的贡献最大,但是最近的工作表明Transformer模型可以被纯MLP 结构替代,并且仍然能够表现得很好,基于这些工作,作者提出了一种假设即Transformer中的自注意力模块并不是最重要的。原创 2022-10-14 20:01:54 · 2122 阅读 · 0 评论 -
【图像分类】2022-how-do-vits-work ICLR
多头自注意力(MSAs)技术在计算机视觉领域的成功已是不争的事实。然而,人们对MSAs的工作原理知之甚少。此外很多工作对MSA工作原理的分析只停留在其具有弱归纳偏置(weak inductive bias)和长距离依赖捕捉(long-range dependency)的能力。本文较为全面的对视觉Transformer的低层原理进行了分析和实验论证。原创 2022-10-12 17:28:39 · 429 阅读 · 0 评论 -
【图像分类】2022-CMT CVPR
Vision Transformer 已成功应用于图像识别任务,因为它们能够捕获图像中的远程依赖关系。然而,Transformer 和现有的卷积神经网络 (CNN) 在性能和计算成本上仍然存在差距。在本文中,我们的目标是解决这个问题并开发一个网络,该网络不仅可以胜过传统的 Transformer,还可以胜过高性能卷积模型。我们提出了一种新的基于 Transformer 的混合网络,利用变压器来捕获远程依赖关系,并利用 CNN 对局部特征进行建模。...原创 2022-08-26 16:54:53 · 2341 阅读 · 1 评论 -
【图像分类】2019-MoblieNetV3 ICCV
相对重量级网络而言,轻量级网络的特点是参数少、计算量小、推理时间短。更适用于存储空间和功耗受限的场景,例如移动端嵌入式设备等边缘计算设备。因此轻量级网络受到了广泛的关注,其中MobileNet可谓是其中的佼佼者。MobileNetV3经过了V1和V2前两代的积累,性能和速度都表现优异,受到学术界和工业界的追捧,无疑是轻量级网络的“抗把子“。...原创 2022-08-10 10:47:54 · 418 阅读 · 0 评论 -
【图像分类】2018-MobileNetV2
论文题目:MobileNetV2: Inverted Residuals and Linear Bottlenecks发表时间:2018年1月。原创 2022-08-10 10:39:14 · 351 阅读 · 0 评论 -
【图像分类】2017-MobileNetV1 CVPR
MobileNets是为移动和嵌入式设备提出的高效模型。MobileNets基于流线型架构(streamlined),使用深度可分离卷积(depthwise separable convolutions,即Xception变体结构)来构建轻量级深度神经网络。论文介绍了两个简单的全局超参数,可有效的在延迟和准确率之间做折中。这些超参数允许我们依据约束条件选择合适大小的模型。论文测试在多个参数量下做了广泛的实验,并在ImageNet分类任务上与其他先进模型做了对比,显示了强大的性能。...原创 2022-08-10 10:32:29 · 592 阅读 · 1 评论 -
【图像分类】2022-CycleMLP ICLR
Transformer之后,基于MLP的网络结构设计引起了一波新的研究热潮。这种没有Attention的结构在多个领域任务取得了不凡的结果。具体分享提纲如下:CycleMLP是AS-MLP之外的另外一个可以作为通用骨架的MLP架构(AS-MLP是首个迁移到下游任务的 MLP 架构),MLP-Mixer, ResMLP 与gMLP架构与图像大小相关,因为其不能作为下游任务的通用骨干。与现在的MLP方法相比,CycleMLP有两个优点:1)可以处理各种图像大小2)利用局部窗口实现图像大小的线性计算复杂度。相比之原创 2022-08-09 15:55:49 · 904 阅读 · 0 评论 -
【图像分类】2022-ResMLP
研究内容:本文提出了基于多层感知器的图像分类体系结构 ResMLP。方法介绍:它是一种简单的残差网络,它可以替代(i) 一个线性层,其中图像小块在各个通道之间独立而相同地相互作用,以及(ii)一个两层前馈网络,其中每个通道在每个小块之间独立地相互作用。实验结论:当使用使用大量数据增强和选择性蒸馏的现代训练策略进行训练时,它在 ImageNet 上获得了惊人的准确性/复杂度折衷。本文还在自监督设置中训练 ResMLP 模型,以进一步去除使用标记数据集的先验。...原创 2022-08-09 10:36:40 · 1760 阅读 · 1 评论 -
【图像分类】2022-ConvMixer ICLR
7行PyTorch代码实现的网络,就能在ImageNet上达到80%+的精度!尽管卷积网络多年来一直是视觉任务的主导架构,但最近的实验表明,基于Transformer的模型,尤其是视觉Transformer(ViT),可能在某些设置下超过它们的性能。然而,由于变形金刚中自我注意层的二次运行时间,ViT需要使用补丁嵌入,将图像中的小区域组合成单个输入特征,以便应用于更大的图像尺寸。这就提出了一个问题:ViT的性能是由于固有的更强大的Transformer架构,还是至少部分地由于使用补丁作为输入表示?.....原创 2022-08-08 17:26:08 · 768 阅读 · 2 评论 -
【图像分类】2021-CoAtNet NeurlPS
Transformers 在计算机视觉任务上得到了越来越多的关注,但仍落后于 SOTA 卷积网络。本文作者证明,尽管 Transformers 具有更强的model capacity(模型能力),但因为缺乏inductive bias(归纳偏置)特性,它的泛化性要落后于 CNN。为了有效地结合二者的长处,作者提出了 CoAtNets,它的构建主要基于两个关键想法:(1)我们可以通过简单的 relative attention(相对注意力)将 depthwise Convolution(深度卷积)和 self原创 2022-08-07 16:41:40 · 750 阅读 · 0 评论 -
【图像分类】2022-MaxViT ECCV
由于自注意力的机制对于图像大小方面缺乏可扩展性,限制了它们在视觉主干中的应用。本文提出了一种高效的可拓展的全局注意,该模型包括两个方面:阻塞的局部注意和拓展的全局注意。作者通过将该注意模型与卷积有效结合,并简单的将这些模块堆叠,形成了了一个分层的视觉主干网络MaxVit。值得注意的是,MaxVit能在整个网络中看到全局甚至是在早期的高分辨率的阶段。在分类任务上,该模型在ImaegNet 1K上达到86.5%的 top-1准确率,在imageNet-21K上纪进行预训练,top-1准确率可以达到88.7%。对原创 2022-08-07 12:55:29 · 3043 阅读 · 1 评论 -
【图像分类】2022-RepLKNet CVPR 31x31卷积了解一下
CVPR22最新论文,RepVGG作者提出RepLKNet:采用31×31大kernel的CNN网络,性能超过Swin,作者在论文中提出了大kernel size卷积的4个设计准则,并设计了31x32的纯CNN结构,在图像分类和下游检测分割上超过Swin!在图像分类、特征学习等前置任务(pretext task)以及目标检测、语义分割等下游任务(downstream task)上,卷积网络的性能不断被ViTs(vision transformer)网络超越。人们普遍认为ViTs的性能主要得益于。...原创 2022-08-06 16:19:29 · 6022 阅读 · 3 评论 -
【图像分类】2021-Twins NeurIPS
文章总结了ViT,PVT,Swin-Transformer 等模型,ViT 原生的视觉注意力模型做主干网络并不能很好地适配目标检测、语义分割等常用的稠密预测任务。此外,相比于卷积神经网络,ViT 计算量通常要更大,推理速度变慢,不利于在实际业务中应用。因此设计更高效的视觉注意力模型,并更好地适配下游任务成为了当下研究的重点。PVT–香港大学、商汤联合提出的金字塔视觉注意力模型 PVT 借鉴了卷积神经网络中的图像金字塔范式来生成多尺度的特征,这种结构可以和用于稠密任务的现有后端直接结合,支持多种下游任务,。但原创 2022-08-05 11:31:34 · 606 阅读 · 0 评论 -
【图像分类】2021-CvT
方法简洁高效,性能在现在大神云集的Transformer算法里非常有竞争力。原创 2022-08-05 09:40:22 · 1080 阅读 · 0 评论 -
【图像分类】2021-DeiT
存在的问题ViT需要大量的GPU资源:ViT-L “~8卡85天”ViT的预训练数据集JFT-300M没有公开超参数设置不好很容易Train不出效果对于VIT训练数据巨大,超参数难设置导致训练效果不好的问题,提出了DeiT。DeiT的模型和VIT的模型几乎是相同的,可以理解为本质上是在训一个VIT。针对ViT难训练的问题,DeiT提出参数设置、数据增强、知识蒸馏来更有效地训练ViT。DeiT提出的训练方法成为后续ViT模型的训练标注。......原创 2022-08-04 15:33:23 · 1476 阅读 · 0 评论 -
【图像分类】2022-MPViT CVPR
在这项工作中,作者以不同于现有Transformer的视角,探索多尺度pathembedding与multi-path结构,提出了Multi-pathVisionTransformer(MPViT)。通过使用overlappingconvolutionalpatchembedding,MPViT同时嵌入相同大小的patch特征。然后,将不同尺度的Token通过多条路径独立地输入Transformerencoders,并对生成的特征进行聚合,从而在同一特征级别上实现精细和粗糙的特征表示。...原创 2022-07-31 15:03:39 · 2584 阅读 · 0 评论 -
【图像分类】2021-EfficientNetV2 CVPR
EfficientNetV2这篇文章是2021年4月份发布的,下图给出了EfficientNetV2的性能,可其分为S,M,L,XL几个版本,在ImageNet21k上进行预训练后,迁移参数到ImageNet1k分类可见达到的正确率非常之高。相比而言ViT预训练后的性能也低了快两个点,训练速度也会更慢。...原创 2022-07-30 10:05:37 · 1128 阅读 · 3 评论 -
【图像分类】2021-MLP-Mixer NIPS
卷积神经网络(CNN)是计算机视觉的首选模型。最近,基于注意力的网络(例如ViT)也变得很流行。在本文中,我们表明,尽管卷积和注意力都足以获得良好的性能,但它们都不是必需的。文章介绍了MLP-Mixer,这是一种仅基于多层感知机(MLP)的体系结构。MLP-Mixer仅仅依赖于在空域或者特征通道上重复实施的多层感知器;Mixer仅依赖于基础矩阵乘操作、数据排布变换(比如reshape、transposition)以及非线性层。本文是谷歌大脑的研究员(原ViT团队)在网络架构设计方面挖的新坑。......原创 2022-07-26 16:49:06 · 695 阅读 · 0 评论 -
【图像分类】2020-ViT ICLR
ViT挑战了2012年AlexNet以来,在计算机视觉领域的绝对地位,结论: 如果在,那我们也,直接使用标准的Transformer 就能把视觉任务做的很好。作者团队证明了脱离神经网络,使用一个结构也能在图像分类任务上表现的很好。甚至当我们在大规模数据集(google 的JTF300M或者Imagenet21K)上进行预训练然后在小数据集上进行微调时,它的表达效果甚至超过了传统的卷积神经网络。并且随着数据集的扩大vision transformer还ViT能解决的问题?ViT的功能Transformer用到原创 2022-07-01 10:57:51 · 603 阅读 · 0 评论 -
【轻量型backbone】2022 EdgeViTs CVPR
港中文&三星提出EdgeViT:轻量级视觉Transformer新工作在计算机视觉领域,基于Self-attention的模型(如(ViTs))已经成为CNN之外的一种极具竞争力的架构。尽管越来越强的变种具有越来越高的识别精度,但由于Self-attention的二次复杂度,现有的ViT在计算和模型大小方面都有较高的要求。 虽然之前的CNN的一些成功的设计选择(例如,卷积和分层结构)已经被引入到最近的ViT中,但它们仍然不足以满足移动设备有限的计算资源需求。这促使人们最近尝试开发基于最先进的MobileNe原创 2022-06-22 16:01:53 · 1806 阅读 · 0 评论 -
2021 BoTNet 更好的backbone
UC Berkeley 和 谷歌2021发表的一篇论文,属于的工作。基于,同时使用卷积与自注意力机制来保持全局性和局部性。模型在ResNet最后三个BottleNeck中使用了。简单来讲Non-Local+Self Attention+BottleNeck = BoTNet本篇文章首先在检测和分割任务上进行试验,因为检测和分割都需要高质量的全局信息,然后推广到分类视觉任务。作者认为,不同于分类任务输入图片较小(224×224)(224\times 224)(224×224),检测任务输入较大(1024×10原创 2022-06-07 16:27:01 · 2684 阅读 · 0 评论 -
2018-Non-local CVPR
基于自相似的非局域注意力机制Non-Local是王小龙在年提出的一个模型。Non-Local Neural Network和Non-Local Means非局部均值去燥滤波有点相似的感觉。普通的滤波都是3×3的卷积核,然后在整个图片上进行移动,处理的是3×3局部的信息。Non-Local Means操作则是结合了一个比较大的搜索范围,并进行加权。卷积操作,是典型的,如果要增大神经元的感受野,一般是来实现,但是都会增加,并且feature map的尺寸会较小。为了突破,作者借鉴图像去噪这个领域的操作,提出了n原创 2022-06-06 20:56:57 · 300 阅读 · 0 评论 -
2020 ECA-Net CVPR
近年来,通道注意机制在改善深度卷积神经网络(CNN)性能方面显示出巨大的潜力。然而,大多数现有方法致力于开发更复杂的注意模块,以获得更好的性能,这不可避免地增加了模型的复杂性。为了克服性能和复杂性之间的矛盾,本文提出了一种高效的通道注意(ECA)模块,该模块只涉及少量参数,同时带来明显的性能增益。通过剖析SENet中的通道注意模块,我们实证地表明,避免维度缩减对于学习通道注意非常重要,适当的跨通道交互可以在显著降低模型复杂度的同时保持性能。因此,我们提出了一种无降维的局部交叉信道交互策略,该策略可以通过一维原创 2022-06-06 17:02:28 · 375 阅读 · 0 评论 -
【图像分类】2017-SENet CVPR
WMW以极大的优势获得了最后一届 ImageNet 2017 竞赛 任务的冠军,SENet则主要关注通道上可做点,通过显示的对卷积层特征之间的通道相关性进行建模来提升模型的表征能力;并以此提出了特征重校准机制:通过使用全局信息去选择性的增强可信息化的特征并同时压缩那些无用的特征。可以嵌入到现在几乎所有的中。通过在原始网络结构的 building block 单元中嵌入 SE 模块,我们可以获得不同种类的 SENet。如 SE-BN-Inception、SE-ResNet、SE-ReNeXt、SE-Ince原创 2022-06-06 16:09:30 · 170 阅读 · 0 评论 -
2018 ShuffleNetV2 ECCV
文章目录2018 ShuffleNetV2 ECCV1. 简介2. 网络(创新点)2.1 评价原则2.2 4条网络设计原则1) G1-同样大小的通道数可以最小化 MAC2) G2-分组数太多的卷积会增加 MAC3) G3-网络碎片化会降低并行度4) G4-逐元素的操作不可忽视2.3 设计的block3. 代码2018 ShuffleNetV2 ECCV论文地址:https://arxiv.org/abs/1807.11164感谢我的研究生导师!!!霹雳吧啦Wz的个人空间_哔哩哔哩_bilibili原创 2022-05-24 21:02:07 · 286 阅读 · 0 评论 -
2017 ShuffleNetV1 CVPR
2017 ShuffleNetV1 CVPR论文地址https://arxiv.org/abs/1707.01083代码地址:https://github.com/jaxony/ShuffleNet感谢我的研究生导师!!!霹雳吧啦Wz的个人空间_哔哩哔哩_bilibili跟李沐学AI的个人空间_哔哩哔哩_bilibili1. 简介ShuffleNet V1 是旷视科技的张翔雨提出的一种适用于移动设备的轻量化网络。为了解决主要的视觉识别任务,构建更深更大的卷积神经网络是一个基本的趋势,大多原创 2022-05-23 18:21:37 · 176 阅读 · 0 评论 -
2017-DenseNet CVPR
2017-DenseNet CVPR论文链接:https://arxiv.org/abs/1608.06993代码的github链接:https://github.com/liuzhuang13/DenseNet感谢我的研究生导师!!!霹雳吧啦Wz的个人空间_哔哩哔哩_bilibili跟李沐学AI的个人空间_哔哩哔哩_bilibili1. 简介文章是CVPR2017的oral。论文中提出的DenseNet主要还是和ResNet及Inception网络做对比,思想上有借鉴,但却是全新的结构,原创 2022-05-20 15:10:28 · 292 阅读 · 0 评论 -
2016 ResNeXt CVPR
文章目录2016 ResNeXt CVPR1. 简介1.1 简介1.2 摘要2. 网络2.1 Building block3. 代码2016 ResNeXt CVPR论文地址:https://arxiv.org/abs/1611.05431代码地址:https://github.com/facebookresearch/ResNeXtResNeXt论文翻译感谢我的研究生导师!!!霹雳吧啦Wz的个人空间_哔哩哔哩_bilibili跟李沐学AI的个人空间_哔哩哔哩_bilibili1. 简介原创 2022-05-20 11:24:33 · 194 阅读 · 0 评论 -
2022-ConvNet CVPR
文章目录2022-ConvNet CVPR1. 简介1.1 简介1.2 结论2. 网络架构2.1 设计方案2.2 Macro design2.3 ResNeXt-ify2.4 Inverted Bottleneck2.5 Large Kernel Sizes2.6 Micro Design2.7 ConvNext variants3. 训练4. 代码2022-ConvNet CVPR论文地址:https://arxiv.org/abs/2201.03545代码地址: https://github.c原创 2022-05-19 21:08:36 · 1233 阅读 · 0 评论 -
2021-Swin Transformer
Swin Transformer论文地址:https://arxiv.org/abs/2103.14030代码地址:https://github.com/microsoft/Swin-Transformerhttps://www.bilibili.com/video/BV13L4y1475U 感谢沐神,朱毅,感谢霹雳大佬!!!!1. 简介1.1 简介Swin Transformer是2021年微软研究院发表在ICCV上的一篇文章,并且已经获得ICCV 2021 best paper的荣誉称号原创 2022-05-19 20:49:56 · 2406 阅读 · 0 评论 -
【图像分类】2019-EfficientNetV1 ICML
EfficientNetV1网络详解原论文名称:EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks论文下载地址:https://arxiv.org/abs/1905.11946原论文提供代码:https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet1. 简介1.1 简介本文是发表于ICML 2019的一篇论文原创 2022-05-13 17:34:37 · 1049 阅读 · 0 评论 -
2019-HRNet CVPR
文章目录HRNet CVPR20191. 简介2. 网络架构2.1 总揽图2.2 3*3卷积块2.3 BasicBlock2.4 三层残差块2.5 HighResolutionNet结构初始化 `__init__()`构建 stage 间转换层 `_make_transition_layer()`构建 stage1 的 layer `_make_layer()`构建 stage 2/3/4 的 layer `_make_stage`2.6 高分辨率模块HighResolutionModulecheck_br原创 2022-04-30 10:33:07 · 571 阅读 · 0 评论 -
【图像分类】2018-CBAM ECCV
卷积注意力模块(CBAM)论文地址1. 简介1.1 简介CBAM 是对标于SENet所提出的一种结合了通道注意力和空间注意力的轻量级模块,它和SENet一样,几乎可以嵌入任何CNN网络中,在带来小幅计算量和参数量的情况下,大幅提升模型性能。github: https://github.com/Jongchan/attention-moduleSENet(Sequeeze and Excitation Net)是2017届ImageNet分类比赛的冠军网络,本质上是一个基于通道的Attent原创 2022-04-26 21:33:30 · 1081 阅读 · 0 评论 -
2015-ResNet CVPR
发表在年,最佳论文:Deep Residual Learning for Image Recognition。 通过解决深层网络的退化问题,大大提升神经网络深度,各类计算机视觉任务均从深度模型提取出的特征中获益。ResNet获得2015年ImageNet图像分类、定位、目标检测竞赛冠军,MS COCO目标检测、图像分割冠军。并首次在ImageNet图像分类性能上。网络是为了解决深度网络中的退化问题,即网络层数越深时,在数据集上表现的性能却越差,如下图所示是论文中给出的深度网络退化现象。从图中我们可以看到,作原创 2022-04-10 09:23:38 · 551 阅读 · 0 评论 -
2014-VGG网络讲解
文章链接文章目录VGG1. 简介2. 网络3. 代码加载数据创建分类网络训练4. 别人优化后的代码VGG1. 简介其名称来源于作者所在的牛津大学视觉几何组(Visual Geometry Group)的缩写。VGG模型是2014年ILSVRC竞赛的第二名,第一名是GoogLeNet。而且,从图像中提取CNN特征,VGG模型是首选算法。它的缺点在于,参数量有140M之多,需要更大的存储空间。但是这个模型很有研究价值。2. 网络VGG是2014年被提出的,与之前的state-of-the-art的原创 2022-04-09 22:12:09 · 620 阅读 · 0 评论