
网络架构
文章平均质量分 94
总结 CNN 和 Transformer 等基于深度学习的骨干网络架构。
CVHub
专注多模态视觉语言AI全栈知识分享,提供原创、多领域、有深度的前沿AI论文解读与工业成熟解决方案
展开
-
深度学习中如何为骨干网络选取“最佳“优化器?
本文探讨了计算机视觉中骨干网络设计和优化器选择之间的相互作用。我们揭示了骨干-优化器耦合偏差(BOCB)现象及其对视觉骨干网络潜在的限制,例如在下游任务中额外的微调时间和努力。我们还发现了不同网络设计和BOCB背后的基本原理,从而为未来的视觉骨干网络设计提供了指导。同时,基准测试结果和发布的代码为用户友好的部署和评估提供了参考。总体而言,我们旨在激励计算机视觉社区重新思考骨干网络和优化器之间的关系,在未来的研究中考虑BOCB,从而为更系统性的未来进步做出贡献。原创 2024-10-17 22:44:24 · 1163 阅读 · 0 评论 -
CNN 与 ViT 的完美结合 | TransXNet: 结合局部和全局注意力提供强大的归纳偏差和高效感受野
在这项工作中,作者提出了一种高效的D-Mixer,充分利用了OSRA和IDConv提供的混合特征提取。通过将基于D-Mixer的块堆叠到深度网络中,IDConv中的卷积核和OSRA中的注意力矩阵都是动态生成的,使用了前几个块中收集的局部和全局信息,从而增强了网络的表示能力,融入了强大的归纳偏差和扩展的有效感受野。此外,作者还引入了MS-FFN,用于在前馈网络中进行多尺度的Token聚合。通过交替使用D-Mixer和MS-FFN,作者构建了一种新型的混合网络,称为TransXNet。原创 2023-11-22 21:46:19 · 1475 阅读 · 0 评论 -
WACV 2024 | SBCFormer: 面向端CPU设备的高效神经网络设计典范
本文提出了一种名为SBCFormer的新型深度网络架构,旨在在低端CPU上实现图像分类任务中准确度和计算速度的良好平衡。通过采用CNN-ViT混合结构,SBCFormer利用Transformer的注意力机制在单板计算机上实现了高精度和快速计算,特别适用于智能农业和畜牧管理等领域。然而,研究的局限性在于实验选择了特定的处理器,并以推理延迟为主要度量标准,这可能在不同环境下产生不同结果。因此,需要在更广泛的硬件和软件配置中进行进一步验证,以确保SBCFormer的性能鲁棒性和可扩展性。原创 2023-11-22 21:42:32 · 425 阅读 · 0 评论 -
爱人民币(iRMB)就不会 EMO 了?| ICCV-2023: 结合 CNN 和 Transformer 的倒残差移动模块设计
从技术上看,本文工作重新思考了ViT和CNN的轻量级的一些较为关键的设计,类似于先前的,由于有mobile场景的限制,本文提出了一个简单有效的模块,即倒残差移动模块,并在不使用很强的数据增强情况下,在mobile的setting下多个数据集上取得了领先结果,整体属于简单有效,代码和模型已经开源,欢迎大家使用!原创 2023-08-27 11:28:13 · 814 阅读 · 0 评论 -
中科院一区顶刊 | DilateFormer: 即插即用的多尺度全局注意力机制(附源码实现)
在这项工作中,研究者们提出了一个强大且有效的视觉模型,称为。这种模型可以为各种视觉任务提供强大且通用的表示。提出的多尺度空洞注意力(MSDA)模块考虑了自注意力机制在浅层网络中的局部性和稀疏性,它可以有效地聚合语义多尺度信息,并有效地减少自注意力机制的冗余性,而无需复杂的操作和额外的计算成本。在大量的实验结果中,DilateFormer 表现出优异的性能,达到了在ImageNet-1k分类和下游视觉任务(如目标检测和语义分割)中的最新水平。原创 2023-08-12 23:50:30 · 5243 阅读 · 4 评论 -
ICCV 2023 | 中科大联合 MSRA 提出轻量级神经网络架构 AFFNet: 自适应频率滤波器
目前主流的三大视觉基础架构:CNN、Transformer 和 MLP,在各大视觉任务上均表现良好,很大一部分原因功于它们在全局范围内有效的信息融合。然而,由于自注意力机制、大卷积核和全连接层的高计算成本,特别是在移动设备上的高效部署仍然存在挑战。通过引入自适应频率滤波(AFF)token混合器,本文提出了一种新颖的全局token混合方法,并构建了一种轻量级视觉网络架构AFFNet。该方法有效地克服了传统深度学习模型在移动和边缘设备上的计算挑战,并展示了在广泛视觉任务上的卓越性能。原创 2023-08-12 23:47:55 · 1416 阅读 · 0 评论 -
1.3ms 延迟 | 清华 ICCV 2023 最新开源移动端网络架构 RepViT,速度贼溜!
本文通过引入轻量级 ViT 的架构选择,重新审视了轻量级 CNNs 的高效设计。这导致了 RepViT 的出现,这是一种新的轻量级 CNNs 家族,专为资源受限的移动设备设计。在各种视觉任务上,RepViT 超越了现有的最先进的轻量级 ViTs 和 CNNs,显示出优越的性能和延迟。这突显了纯粹的轻量级 CNNs 对移动设备的潜力。原创 2023-07-22 23:47:24 · 797 阅读 · 0 评论 -
英伟达最新开源 | FasterViT: 面相硬件优化的高效神经网络架构
FasterViT 被设计为一种混合网络结构,综合了 CNN 和 ViT 的优势,旨在实现高效的图像处理速度。同时,为了处理高分辨率图像,论文中引入了一种新的 HAT 模块,用于捕捉短距离和长距离的空间依赖关系,并有效地建模窗口间的交互。通过这些改进,本文模型能够很好的在图像处理速度和性能之间取得最佳平衡的解决方案。原创 2023-06-18 13:39:40 · 990 阅读 · 0 评论 -
即插即用系列 | Meta 新作 MMViT: 基于交叉注意力机制的多尺度和多视角编码神经网络架构
本文主要提出了一种新颖的多尺度及多视图视觉 Transformer 模型,作为适用于多种模态的主干网络。该模型将多个视图输入到多尺度阶段层次结构模型中,并结合了多尺度视觉 Transformer(MViT)和多视图 Transformer(MTV)的优点。在每个尺度阶段,使用交叉注意力层来合并不同分辨率的视图信息,从而使网络能够捕捉复杂的高维特征。实验结果表明,MMViT 模型有一定的性能提升。原创 2023-06-04 23:44:17 · 2268 阅读 · 2 评论 -
CVPR 2023 | X-Decoder: 下一代通用视觉系统设计范式
本文提供了一种广义的解码器X-Decoder,能够无缝支持像素级和图像级视觉-语言理解的模型。通过简洁而通用的设计,X-Decoder 可以轻松地统一和支持通用分割、引用分割和视觉-语言任务,实现了强大的泛化能力和竞争性甚至是最先进的性能。作者希望这项工作能够为下一代通用视觉系统的设计提供启示,但就目前来看,X-Decoder论文介绍了Make-It-3D,这是一种新颖的两阶段的方法,可以从单个图像创建高保真度的三维内容。原创 2023-05-20 13:57:10 · 785 阅读 · 0 评论 -
CVPR 2023 | 港中文联合微软研究院推出基于级联分组注意力模块的全新实时网络架构模型 EfficientViT
本文提出了模型,通过优化内存效率和注意力计算冗余,实现了高速且内存高效的视觉模型,并在实验中展示了它在速度和准确性方面的优越性能。此外,本文代码已开源,同时提供了转onnx等示例,提速非常明显,欢迎大家踊跃尝试!原创 2023-05-20 13:50:12 · 963 阅读 · 0 评论 -
即插即用系列 | 阿里最新开源新一代通用神经网络架构: UniNeXt
这篇论文提出了一种名为UniNeXt的统一架构,通过将空间令牌混合器与其他组件相结合,增加了网络的归纳偏差,包括在 STM 中添加并行的 EC 分支、在通道 MLP 后面添加 OC 模块以及在 FFN 中添加 3×3 的深度可分离卷积。最后,在广泛的实验中,作者验证了该框架的有效性,并呼吁研究人员关注宏观架构设计,而非仅仅是一些精心设计的模块(魔改?原创 2023-05-20 13:45:52 · 526 阅读 · 1 评论 -
CVPR 2023 | 清华黄高团队提出适配边端和云端的即插即用型高效神经网络网络架构 Slide-Transformer
在这篇论文中,作者重新审视了局部注意力机制,并通过提出一种新颖的 Slide Attention 模块来解决其效率问题。该模块仅使用常规卷积操作,将低效的 Im2Col 函数替换为深度卷积,并配备了一个可变形平移模块,从而实现了高效、灵活和通用的局部注意力。广泛的实验表明,所提模块可以广泛应用于各种视觉 Transformer 模型和不同的硬件设备上,同时在计算效率和模型性能之间实现了更好的权衡。整体来说,本文所提出的滑动注意力中一味增加窗口大小的只会带来边际改进。原创 2023-04-22 13:37:24 · 1858 阅读 · 1 评论 -
即插即用系列 | 清华提出最新移动端高效网络架构 CloFormer: 注意力机制与卷积的完美融合!
本论文提出了 CloFormer,一种具有上下文感知的局部增强机制的轻量级视觉 Transformer,并且开发了一种新颖的局部感知方法。CloFormer 在类似的 FLOPs 和模型大小的模型中取得了竞争性的性能。特别地,经过精心设计的AttnConv 利用共享权重和上下文感知权重有效地提取高频局部特征表示。此外,采用了双分支结构来混合高频和低频信息。大量实验证明 CloFormer 是一种轻量高效的视觉骨干网络,胜过了许多现有的 SOTA 方法。原创 2023-04-22 13:35:44 · 2024 阅读 · 3 评论 -
2023 港科大医学图像分割新作 | PHNet: 当MLP与CNN巧妙结合会擦出什么火花?
结果显示,在浅层使用 Conv 和在深层使用 MLP 的组合可以获得最佳性能,这与作者的论点相符,即 Conv 擅长提取局部特征,而 MLP 更有效地模拟长程依赖。结果表明,所提出的结构分别在 Dice 指标上获得了 2.15%、1.85% 和 0.45% 的改进,证明了本文设计的良好性能。为了解决这一问题,本文使用2D卷积块来捕获IP信息,直到特征在三个轴面(横断、冠状和矢状)上形成近似均匀的分辨率,然后使用3D卷积块来处理体素信息。三个特征向量,它们分别代表沿垂直,水平和通道方向的编码信息。原创 2023-04-19 21:35:54 · 776 阅读 · 2 评论 -
CVPR2023 | SparseViT:一种有效处理高分辨率图像的Transformer
本文重新探讨了激活稀疏性在基于窗口的ViTs上的应用,并提出了一种新的方法来利用它。本文引入了稀疏感知自适应,并采用进化搜索来有效地找到最佳的逐层稀疏配置。结果表明,SparseViT在单目3D目标检测、2D实例分割和2D语义分割中实现了1.5倍、1.4倍和1.3倍的测量加速,同时几乎不损失精度。希望本文能够激发未来研究探索使用激活剪枝来实现更高效、同时保留高分辨率信息的方法。原创 2023-04-19 21:20:11 · 1656 阅读 · 0 评论 -
即插即用! | 苹果推出新型网络架构 FastViT: 又快又强又稳,端侧一键部署毫无压力!
本文提出了一种通用的混合视觉转换器,它在多种计算结构上非常高效,包括移动设备和桌面级 GPU。通过结构重参数化,所提模型FastViT显著降低了内存访问成本,尤其是在高分辨率下提速明显。此外,通过进一步的架构优化,最终提高了 ImageNet 分类任务和其他下游任务(如目标检测、语义分割和 3D 手部网格估计)的性能,同时对域外数据和损失数据具备很强的泛化性和鲁棒性!原创 2023-04-19 20:57:35 · 417 阅读 · 0 评论 -
Skip-Attention:一种能显著降低Transformer计算量的模型轻量化方法
我们提出了一种可以在任何 ViT 架构中即插即用的模块 SKIPAT,用于减少昂贵的自注意力计算。SKIPAT 利用 MSA 块之间的依赖性,并通过重用以前 MSA 块的注意力表示来绕过注意力计算。此外,我们引入了一个简单且轻量的参数函数,它不会影响 MSA 中编码的归纳偏见。SKIPAT 函数能够捕获跨token之间的关系,在吞吐量和 FLOPs 指标上优于基线模型,同时我们在7 种不同的任务中充分地表现出SKIPAT的有效性。原创 2023-03-24 00:05:09 · 1026 阅读 · 0 评论 -
卷麻了! nnUNet 研究团队重磅新作 | MedNeXt: 新一代分割架构之王,刷新多项榜单记录!
与自然图像任务相比,由于有限的训练数据等固有的领域挑战,医学图像分割缺乏受益于缩放网络的架构(如ConvNeXt本文提出了一种具备高度可扩展性的类ConvNeXt的 3D 分割架构,其在有限的医学图像数据集上优于其它 7 个顶流方法,当中就包含了非常强的nnUNet。MedNeXt设计作为标准卷积块的有效替代,完全可作为医学图像分割领域的新网络架构标杆之作!原创 2023-03-24 00:01:59 · 1410 阅读 · 0 评论 -
高效神经网络架构的正确打开方式! | EMO:结合 CNN 和 Transformer
如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!欢迎添加小编微信号:cv_huber,一起探讨更多有趣的话题!原创 2023-03-23 22:20:06 · 1231 阅读 · 0 评论 -
ConvNeXt-V2:当 MAE 遇见 ConvNeXt 会碰撞出怎样的火花?
在本文中,我们介绍了一个名为 ConvNeXt V2 的新 ConvNet 模型系列,一种更适合自监督学习而设计的新型网络架构。通过使用全卷积掩码自编码器预训练,可以显着提高纯 ConvNets 在各种下游任务中的性能,包括 ImageNet 分类、COCO 对象检测和 ADE20K 分割。如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!原创 2023-03-23 22:06:30 · 508 阅读 · 1 评论 -
即插即用系列!| Spatial Bias: 一种简单有效的超轻量全局编码方法
SENets通过在通道维度上计算注意力来调整特征图的重要性。它在各种视觉任务中都表现出很好的性能,但它只能建模通道之间的关系,无法捕捉像素级别的空间关系。本文提出了一种快速且轻量的全局特征提取方法:空间偏置卷积。所提出的方法仅向卷积特征图中添加了一些额外的空间偏置通道,使得卷积层本身能够通过自注意操作学习全局知识。换句话说,空间偏置是一种非局部方法,允许卷积学习长距离依赖关系。相较于现有的非局部方法,空间偏置生成的参数、FLOPs和吞吐量开销都要小得多。本文方法设计简单而直接,能够轻松地应用于各种网络架构。原创 2023-03-19 10:27:28 · 409 阅读 · 0 评论 -
即插即用系列 | Skip-Attention:一种能显著降低Transformer计算量的模型轻量化方法
即插即用系列 | Skip-Attention:一种能显著降低Transformer计算量的模型轻量化方法原创 2023-02-18 09:49:52 · 1769 阅读 · 2 评论 -
高效神经网络架构的正确打开方式 | EMO:结合 CNN 和 Transformer 的现代倒残差移动模块设计
高效神经网络架构的正确打开方式 | EMO:结合 CNN 和 Transformer 的现代倒残差移动模块设计原创 2023-02-18 09:45:11 · 1143 阅读 · 0 评论 -
ConvNeXt-V2: 当 MAE 遇见 ConvNeXt 会碰撞出怎样的火花?
ConvNeXt-V2: 当 MAE 遇见 ConvNeXt 会碰撞出怎样的火花?原创 2023-02-18 09:38:45 · 540 阅读 · 2 评论 -
惊讶 | EfficientFormerV2:Transformer居然还能比MobileNet还快更准
惊讶 | EfficientFormerV2:Transformer居然还能比MobileNet还快更准原创 2023-02-18 09:30:38 · 211 阅读 · 0 评论 -
EfficientFormerV2: Transformer家族中的MobileNet
EfficientFormerV2: Transformer家族中的MobileNet原创 2023-02-17 22:57:41 · 817 阅读 · 0 评论 -
杀疯了 | UNETR++:轻量级的共享权重Transformer称霸医学图像分割领域
杀疯了! | UNETR++:轻量级的共享权重Transformer称霸医学图像分割领域原创 2023-02-17 22:18:08 · 2250 阅读 · 0 评论