YOLO算法改进Backbone系列之MogaNet：_yolo算法改进backbone系列之:moganet-优快云博客

本文链接：https://blog.youkuaiyun.com/sc1434404661/article/details/138090666

卷积神经网络（ConvNets）一直是计算机视觉的首选方法。受灵长类视觉系统的启发，卷积层可以对具有区域密集连接和平移等方差约束的观测图像的邻域相关性进行编码。通过交错分层，ConvNets获得了被动增加的感受野，并善于识别潜在的语义模式。但ConvNets提取的表示已被证明对区域纹理有很强的偏差，导致视觉目标的全局上下文信息的显著丢失。相比之下，通过放松局部感应偏差，ViT及其变种模型在广泛的视觉基准上迅速超越了ConvNets。ViT的能力主要来源于自注意力机制，无论拓扑距离如何，它都有助于长距离互动。然而自注意力机制中的二次复杂性限制了ViT的计算效率及其在细粒度下游任务中的应用潜力。然而，现有方法仍然存在一个表示瓶颈：自注意力机制或大内核的实现阻碍了区分性上下文信息和全局交互的建模，导致DNN和人类视觉系统之间的认知差距。与特征整合理论一样，人脑不仅提取局部特征，而且同时聚合这些特征以进行全局感知，这比DNN更紧凑和高效。为了应对这一挑战，作者从特征交互复杂性的角度研究了DNN的表示能力。为此，作者设计了一个具有相应基本操作的宏ConvNet框架，并进一步开发了一个名为多阶门控聚合网络（MogaNet）的新型ConvNets家族，用于加速具有多重交互复杂性的上下文信息。在MogaNet中，根据人类视觉引入了一个多阶特征聚合模块。作者的设计将局部感知和上下文聚合封装到一个统一的空间聚合块中，在该块中，复合多阶关联通过并行的选通机制被有效地聚合和上下文。从通道方面来看，由于现有方法易于实现高通道信息冗余，因此定制了一个简单而有效的通道聚合块，该块对输入特征执行自适应通道重分配，并以较低的计算成本显著优于主流对应方（例如SE模块）。

MogaNet的整体框架如下图所示，架构和一般的 Transforme