MogaNet：高效的多阶门控聚合网络

AI浩

已于 2024-12-19 14:09:29 修改

阅读量2.8k

点赞数 17

CC 4.0 BY-SA版权

分类专栏：高质量人类CV论文翻译文章标签：网络人工智能计算机视觉

于 2024-02-06 08:45:22 首次发布

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/136019328

高质量人类CV论文翻译专栏收录该内容

141 篇文章 ¥79.90 ¥99.00

订阅专栏

文章目录

摘要
1、简介
2、相关工作
- 2.1、视觉Transformers
- 2.2、ViT时代的卷积网络
3、从多阶博弈论交互的角度看表示瓶颈
4、方法论
5、实验
6、结论
致谢
A、实现细节
B、实验结果
- B.1、DNNs的表示瓶颈：多阶交互视角
C、更多消融和分析结果
D、更多对比实验

摘要

https://arxiv.org/pdf/2211.03295.pdf
在这项工作中，我们从多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。在现代卷积神经网络框架中，我们定制了两个特征混合器，它们采用概念上简单但高效的深度卷积，以促进空间和通道空间中的中等阶信息。因此，我们提出了一种新的纯卷积神经网络架构族，称为MogaNet。MogaNet具有出色的可扩展性，在ImageNet和其他多种典型视觉基准测试中，与最先进的模型相比，其参数使用更高效，且具有竞争力的性能。具体来说，MogaNet在ImageNet上实现了80.0%和87.8%的Top-1准确率，分别使用了5.2M和181M参数，优于ParC-Net-S和ConvNeXt-L，同时节省了59%的浮点运算和17M的参数。源代码可在GitHub上(https://github.com/Westlake-AI/MogaNet)获取。

1、简介

自深度神经网络（DNNs）复兴以来，卷积神经网络（ConvNets）已成为计算机视觉领域的首选方法。通过在池化和非线性操作之间交替使用层次化的卷积层，ConvNets能够利用内置的平移等变约束来编码观察图像的底层语义模式，并进一步成为当今计算机视觉系统中的基础设施。然而，ConvNets所学习的表示对局部纹理有很强的偏见，这导致全局信息的严重损失。因此，研究者们一直在努力改进宏观层次架构和上下文聚合模块。

相比之下，通过放松局部归纳偏置，新出现的Vision Transformers（ViTs）在各种视觉基准测试中迅速挑战了C

了解本专栏