深度残差网络(ResNet)原理与实现详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01112/article/details/148323825

深度残差网络(ResNet)原理与实现详解

d2l-zh 《动手学深度学习》：面向中文读者、能运行、可讨论。中英文版被70多个国家的500多所大学用于教学。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-zh

深度残差网络(ResNet)是深度学习发展历程中具有里程碑意义的架构，它通过引入残差连接(residual connection)有效解决了深度神经网络训练中的梯度消失问题。本文将深入解析ResNet的核心思想、实现细节及其重要意义。

深度神经网络的设计困境

随着神经网络层数的增加，我们面临一个关键问题：**增加网络深度是否一定能提升模型性能？**理论上，更深的网络可以表示更复杂的函数，但实践中发现，单纯增加层数往往会导致训练误差上升，这与直觉相悖。

从数学角度分析，假设$\mathcal{F}$表示某网络架构能表示的函数类，$f^$是我们希望逼近的真实函数。理想情况下，扩大函数类$\mathcal{F}$应该让我们能找到更接近$f^$的函数$f^*_\mathcal{F}$。但如 :numref:fig_functionclasses 所示，非嵌套的函数类扩大后可能反而偏离目标。

函数类嵌套关系对逼近效果的影响 :label:fig_functionclasses

ResNet的创新之处在于设计了嵌套的函数类结构，确保新增层至少能保持原有网络的表达能力，这是通过残差块实现的。

残差块的核心思想

残差块的设计灵感来自一个关键观察：让新增层学习恒等映射(identity mapping)比让它学习一个复杂变换更容易。具体实现如 :numref:fig_residual_block 所示：

常规块(左)与残差块(右)结构对比 :label:fig_residual_block

传统网络块直接学习目标映射$f(\mathbf{x})$，而残差块改为学习残差映射$f(\mathbf{x})-\mathbf{x}$。当最优映射接近恒等映射时，残差映射只需将权重推向零即可，这大大降低了学习难度。

残差块的标准实现包含：

两个3×3卷积层，保持特征图尺寸
每个卷积后接批量归一化(BatchNorm)和ReLU激活
跨层恒等连接(identity shortcut)
最后的总和通过ReLU激活

当需要改变特征图尺寸或通道数时，可通过1×1卷积调整shortcut路径，如 :numref:fig_resnet_block 右侧所示。

ResNet架构实现细节

标准ResNet-18的完整架构如 :numref:fig_resnet18 所示，包含：

ResNet-18网络架构 :label:fig_resnet18

初始层：7×7卷积(stride=2) + 3×3最大池化(stride=2)，快速降采样
残差阶段：4个阶段，分别使用[2,2,2,2]个残差块
- 每个阶段首块可能进行下采样(步长2)
- 通道数逐阶段倍增[64,128,256,512]
输出层：全局平均池化 + 全连接

以下是关键代码实现：

class Residual(nn.Module):
    def __init__(self, input_channels, num_channels, use_1x1conv=False, strides=1):
        super().__init__()
        self.conv1 = nn.Conv2d(input_channels, num_channels, kernel_size=3, 
                              padding=1, stride=strides)
        self.conv2 = nn.Conv2d(num_channels, num_channels, kernel_size=3, padding=1)
        if use_1x1conv:
            self.conv3 = nn.Conv2d(input_channels, num_channels, 
                                 kernel_size=1, stride=strides)
        else:
            self.conv3 = None
        self.bn1 = nn.BatchNorm2d(num_channels)
        self.bn2 = nn.BatchNorm2d(num_channels)

    def forward(self, X):
        Y = F.relu(self.bn1(self.conv1(X)))
        Y = self.bn2(self.conv2(Y))
        if self.conv3:
            X = self.conv3(X)
        Y += X
        return F.relu(Y)