现代卷积神经网络架构设计：从AnyNet到RegNet-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00906/article/details/148361381

现代卷积神经网络架构设计：从AnyNet到RegNet

d2l-en d2l-ai/d2l-en: 是一个基于 Python 的深度学习教程，它使用了 SQLite 数据库存储数据。适合用于学习深度学习，特别是对于需要使用 Python 和 SQLite 数据库的场景。特点是深度学习教程、Python、SQLite 数据库。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-en

引言

在深度学习领域，卷积神经网络(CNN)的设计一直是计算机视觉任务的核心。从早期的AlexNet到后来的ResNet、EfficientNet等，网络架构的演变反映了研究人员对神经网络理解的不断深入。本文将深入探讨现代CNN架构设计的关键思想，特别是从AnyNet到RegNet的设计演进过程。

CNN架构设计的历史演进

经典架构回顾

AlexNet：开启了深度学习在计算机视觉领域的新纪元，证明了深度神经网络的有效性
VGG：通过堆叠3×3卷积构建深层网络，展示了网络深度的重要性
NiN：引入1×1卷积和全局平均池化，增强了网络的非线性表达能力
GoogLeNet：提出Inception模块，通过多分支结构融合不同尺度的特征
ResNet：引入残差连接，解决了深层网络训练困难的问题
ResNeXt：采用分组卷积，在参数数量和计算量之间取得更好平衡

设计范式的转变

传统网络设计主要依赖研究人员的直觉和经验，而现代设计方法则更加系统和自动化。神经架构搜索(NAS)虽然能产生高性能网络，但计算成本极高。相比之下，设计空间探索方法提供了更高效、更可解释的替代方案。

AnyNet设计空间

基本结构

AnyNet采用模块化设计，包含三个主要部分：

Stem(茎部)：执行初始图像处理，通常使用较大卷积核
Body(主体)：由多个阶段(stage)组成，每个阶段包含多个块(block)
Head(头部)：将特征转换为最终输出，通常使用全局平均池化和全连接层

主体设计细节

主体部分通常包含4个阶段，每个阶段逐步降低空间分辨率(通常减半)并增加通道数。每个阶段由多个ResNeXt风格的块组成，包含以下关键参数：

块宽度(通道数)：c₀到c₄
阶段深度(块数量)：d₁到d₄
瓶颈比例：k₁到k₄
分组卷积组数：g₁到g₄

这种设计共有17个可调参数，导致设计空间极其庞大，直接搜索最优配置几乎不可能。

设计空间优化策略

核心假设

为了有效探索庞大的设计空间，研究人员提出了四个关键假设：

良好设计原则的存在性：存在通用设计原则，使得满足这些原则的网络大多表现良好
近似评估可行性：无需完整训练即可评估网络潜力
规模可扩展性：小规模网络的优化结果可推广到大规模网络
参数可分解性：设计参数的影响相对独立

评估方法

通过定义网络性能的累积分布函数(CDF)来评估设计空间：

F(e, p) = P_{net∼p} {e(net) ≤ e}

其中e(net)表示网络net的错误率。目标是找到使大多数网络具有低错误率的分布p。

参数简化策略

实验表明，许多参数可以简化而不影响性能：

统一瓶颈比例：所有阶段使用相同的k值
统一分组数：所有阶段使用相同的g值
线性增长的通道数：c_{i} = c₀ + (c₄-c₀)*i/4
深度与宽度关系：发现d∝c的线性关系

这些简化大幅减少了需要优化的参数数量，同时保持了网络的表达能力。

从AnyNet到RegNet

设计原则

基于AnyNet的探索结果，研究人员总结出RegNet的设计原则：

共享瓶颈比例：简化设计，不影响性能
共享分组数：同样可以简化而不损失准确性
网络宽度增长：发现最优网络宽度随深度线性增加
深度与宽度关系：最佳网络深度与宽度呈线性关系

RegNet架构特点

RegNet最终架构具有以下特点：

渐进增加的宽度：网络宽度随深度线性增加
恒定的瓶颈比例：简化设计空间
恒定的分组数：减少超参数数量
计算高效：相比NAS方法，计算成本大幅降低

实现与代码分析

AnyNet基础实现

以下是AnyNet的核心组件实现：

class AnyNet(d2l.Classifier):
    def stem(self, num_channels):
        # 初始处理层
        return nn.Sequential(
            nn.Conv2d(num_channels, kernel_size=3, stride=2, padding=1),
            nn.BatchNorm2d(), 
            nn.ReLU())
    
    def stage(self, depth, num_channels, groups, bot_mul):
        # 网络阶段实现
        blk = []
        for i in range(depth):
            if i == 0:
                # 第一个块进行下采样
                blk.append(ResNeXtBlock(num_channels, groups, bot_mul,
                          use_1x1conv=True, strides=2))
            else:
                blk.append(ResNeXtBlock(num_channels, groups, bot_mul))
        return nn.Sequential(*blk)

完整网络构建

def __init__(self, arch, stem_channels, lr=0.1, num_classes=10):
    super().__init__()
    self.net = nn.Sequential(self.stem(stem_channels))
    # 添加各阶段
    for i, s in enumerate(arch):
        self.net.add_module(f'stage{i+1}', self.stage(*s))
    # 添加分类头
    self.net.add_module('head', nn.Sequential(
        nn.AdaptiveAvgPool2d((1, 1)), 
        nn.Flatten(),
        nn.Linear(num_classes)))