摘要
https://arxiv.org/pdf/2211.03295.pdf
在这项工作中,我们从多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。在现代卷积神经网络框架中,我们定制了两个特征混合器,它们采用概念上简单但高效的深度卷积,以促进空间和通道空间中的中等阶信息。因此,我们提出了一种新的纯卷积神经网络架构族,称为MogaNet。MogaNet具有出色的可扩展性,在ImageNet和其他多种典型视觉基准测试中,与最先进的模型相比,其参数使用更高效,且具有竞争力的性能。具体来说,MogaNet在ImageNet上实现了80.0%和87.8%的Top-1准确率,分别使用了5.2M和181M参数,优于ParC-Net-S和ConvNeXt-L,同时节省了59%的浮点运算和17M的参数。源代码可在GitHub上(https://github.com/Westlake-AI/MogaNet)获取。
1、简介
自深度神经网络(DNNs)复兴以来,卷积神经网络(ConvNets)已成为计算机视觉领域的首选方法。通过在池化和非线性操作之间交替使用层次化的卷积层,ConvNets能够利用内置的平移等变约束来编码观察图像的底层语义模式,并进一步成为当今计算机视觉系统中的基础设施。然而,ConvNets所学习的表示对局部纹理有很强的偏见,这导致全局信息的严重损失。因此,研究者们一直在努力改进宏观层次架构和上下文聚合模块。
相比之下,通过放松局部归纳偏置,新出现的Vision Transformers(ViTs)在各种视觉基准测试中迅速挑战了C