37、卷积神经网络：从基础到深度架构-优快云博客

本文链接：https://blog.youkuaiyun.com/rust6ferris/article/details/151236148

卷积神经网络：从基础到深度架构

1. 卷积神经网络基础

1.1 示例卷积神经网络代码

以下是一个使用 PyTorch 实现的简单卷积神经网络示例：

import torch
class SampleCNN(torch.nn.Module):
    def __init__(self, num_classes):
        super(LeNet, self).__init__()
        self.nn = torch.nn.Sequential(
            torch.nn.Conv2d(
                in_channels=1, out_channels=6,
                kernel_size=5, stride=1),
            torch.nn.Conv2d(
                in_channels=6, out_channels=16,
                kernel_size=5, stride=1),
            torch.nn.Conv2d(
                in_channels=16, out_channels=120,
                kernel_size=5, stride=1),
        )

    def forward(self, x):
        out = self.nn(x)
        return out

1.2 池化操作

卷积层在处理图像时，对输入特征的位置非常敏感。为了提高神经网络的鲁棒性，我们可以使用池化操作进行下采样。池化层通过在整个图像上滑动一个小的滤波器，在每个滤波器位置使用池化操作来捕获局部区域的摘要信息。常见的池化操作有两种：
- 最大池化（Max Pooling） ：计算每个局部区域的最大值。
- 平均池化（Average Pooling） ：计算每个局部区域的平均值。

池化层的输出特征图大小取决于滤波器的大小和步长。例如，使用 2x2 滤波器和步长为 2 时，输出特征图的大小将变为输入特征图的一半。

以下是使用 PyTorch 实现最大池化和平均池化的代码示例：

import torch
X = torch.tensor([
    [0, 12, 26, 39],
    [6, 19, 31, 44],
    [12, 25, 38, 50],
    [18, 31, 43, 57]
], dtype=torch.float32).unsqueeze(0).unsqueeze(0)

max_pool_2d = torch.nn.MaxPool2d(
    kernel_size=2, stride=2)
out_max_pool = max_pool_2d(X)

avg_pool_2d = torch.nn.AvgPool2d(
    kernel_size=2, stride=2)
out_avg_pool = avg_pool_2d(X)

1.3 卷积的应用

卷积操作在图像和视频分析中有广泛的应用，不同维度的卷积有不同的特点和用途：
| 卷积类型 | 应用场景 | 特点 |
| ---- | ---- | ---- |
| 1D 卷积 | 平滑、边缘检测等 | 可以通过代数和图形方式理解，核大小、填充和步长会影响输出大小 |
| 2D 卷积 | 图像分析 | 同样受核大小、填充和步长影响，可用于图像平滑和边缘检测 |
| 3D 卷积 | 视频运动检测 | 可看作在时空体积中滑动卷积核，用于检测图像序列中的运动 |
| 转置卷积 | 自动编码器中图像重建、上采样 | 核大小、步长和填充会影响输出大小 |

1.4 卷积操作的逻辑流程

graph LR
    A[输入数据] --> B[卷积层]
    B --> C{是否需要池化}
    C -- 是 --> D[池化层]
    C -- 否 --> E[激活函数]
    D --> E
    E --> F[后续层处理]

2. 图像分类与目标检测的卷积神经网络架构

2.1 图像分类与目标检测概述

图像分类是指让计算机识别图像中的对象并将其分类到一个或多个已知的预定义类别中。目标检测则不仅要识别对象的类别，还要确定其在图像中的位置，通常用边界框来描述。传统的计算机视觉技术依赖手工设计的图像特征和规则，难以处理复杂多变的图像。而深度卷积神经网络（CNNs）可以从数据中学习相关特征，在多个计算机视觉任务中取得了巨大成功。

2.2 LeNet 架构

LeNet 是一种经典的卷积神经网络架构，常用于手写数字识别。以 MNIST 数据集为例，该数据集包含 60,000 张训练图像和 10,000 张测试图像，每张图像为 28x28 大小，包含一个居中裁剪的单个数字。LeNet 期望输入图像大小为 32x32，因此需要将 28x28 的 MNIST 图像调整为 32x32。

LeNet 的架构如下：
1. 卷积层 ：包含 3 个 5x5 卷积核，步长为 1。第一个卷积层产生 6 个 28x28 的特征图，第二个卷积层产生 16 个 10x10 的特征图，第三个卷积层产生 120 个 1x1 的特征图（展平为 120 维向量）。
2. 池化层 ：前两个卷积层后面跟着平均池化层，使用 2x2 池化核，将特征图大小减半。
3. 激活函数 ：每个特征图后面跟着 TanH 激活函数，引入非线性，增加网络的表达能力。
4. 全连接层 ：输出特征图通过两个全连接层，最终产生一个 10 维的“logits”向量，代表每个类别的得分。使用 Softmax 层将 logits 得分转换为概率。
5. 损失函数 ：使用交叉熵损失函数计算预测概率与真实标签之间的差异。

以下是使用 PyTorch 实现 LeNet 的代码：

import torch
class LeNet(torch.nn.Module):
    def __init__(self, num_classes):
        super(LeNet, self).__init__()
        self.conv1 = torch.nn.Sequential(
            torch.nn.Conv2d(
                in_channels=1, out_channels=6,
                kernel_size=5, stride=1),
            torch.nn.Tanh(),
            torch.nn.AvgPool2d(kernel_size=2))
        self.conv2 = torch.nn.Sequential(
            torch.nn.Conv2d(
                in_channels=6, out_channels=16,
                kernel_size=5, stride=1),
            torch.nn.Tanh(),
            torch.nn.AvgPool2d(kernel_size=2))
        self.conv3 = torch.nn.Sequential(
            torch.nn.Conv2d(
                in_channels=16, out_channels=120,
                kernel_size=5, stride=1),
            torch.nn.Tanh())
        self.fc1 = torch.nn.Sequential(
            torch.nn.Linear(
                in_features=120, out_features=84),
            torch.nn.Tanh())
        self.fc2 = torch.nn.Linear(
            in_features=84, out_features=num_classes)

    def forward(self, X):
        conv_out = self.conv3(self.conv2(self.conv1(X)))
        batch_size = conv_out.shape[0]
        conv_out = conv_out.reshape(batch_size, -1)
        logits = self.fc2(self.fc1(conv_out))
        return logits

    def predict(self, X):
        logits = self.forward(X)
        probs = torch.softmax(logits, dim=1)
        return torch.argmax(probs, 1)

2.3 迈向更深的神经网络

LeNet 只有 3 个卷积层，对于简单的数据集（如 MNIST）可以取得较好的效果，但对于更复杂的图像分类问题，其表达能力不足。因此，我们通常使用更深的神经网络，添加更多的层有以下好处：
- 增加非线性和表达能力 ：每一层都带来一组可学习的参数和额外的非线性，使网络能够建模输入数据元素之间更复杂的关系。较低层通常学习对象的简单特征，如线条和边缘，而较高层学习更抽象的特征，如形状或线条集合。
- 减少参数数量 ：通过堆叠多个小卷积核（如两个 3x3 卷积核）可以达到与单个大卷积核（如 5x5 卷积核）相同的感受野，但参数数量更少。例如，一个 5x5 滤波器有 25 个参数，而两个 3x3 滤波器只有 18 个参数。

常见的深度卷积网络架构包括 AlexNet、GoogleNet、VGG 和 ResNet 等，它们在 ImageNet 等大规模图像识别挑战中取得了优异的成绩。

2.4 更深网络的优势逻辑

graph LR
    A[浅层网络] --> B[表达能力有限]
    C[深层网络] --> D[增加非线性]
    C --> E[减少参数]
    D --> F[更好建模复杂关系]
    E --> F
    F --> G[提高性能]

3. 常见深度卷积网络架构分析

3.1 深度卷积网络的发展

自 AlexNet 在 2012 年的 ImageNet 大规模视觉识别挑战赛（ILSVRC）上取得显著成果后，引发了深度学习的革命。此后，陆续出现了许多改进的深度卷积网络架构，如 GoogleNet、VGG 和 ResNet 等，这些网络在图像分类和目标检测任务中不断刷新着记录。

3.2 各网络架构特点对比

网络架构	提出时间	特点	优势
AlexNet	2012 年	包含多个卷积层和池化层，使用 ReLU 激活函数，引入了 Dropout 防止过拟合	在大规模图像数据集上显著超越之前的算法，推动了深度学习在计算机视觉领域的发展
GoogleNet	-	引入了 Inception 模块，该模块可以并行执行不同大小的卷积操作和池化操作	能够在增加网络深度和宽度的同时，减少参数数量，提高计算效率
VGG	-	采用了非常深的网络结构，全部使用 3x3 卷积核	网络结构简单，易于理解和实现，特征提取能力强
ResNet	-	引入了残差块，通过跳跃连接解决了深度网络训练中的梯度消失问题	可以训练非常深的网络，在图像分类和目标检测任务中取得了优异的成绩

3.3 深度网络架构的逻辑流程

graph LR
    A[输入图像] --> B[卷积层]
    B --> C{是否使用特殊模块}
    C -- 是（如 Inception 或残差块） --> D[特殊模块处理]
    C -- 否 --> E[池化层]
    D --> E
    E --> F[激活函数]
    F --> G[后续层处理（多次重复）]
    G --> H[全连接层]
    H --> I[输出结果]

4. 总结与实践建议

4.1 卷积神经网络要点总结

卷积操作在不同维度（1D、2D、3D）和转置卷积都有各自的应用场景，核大小、步长和填充会影响输出大小。
池化操作（最大池化和平均池化）可以提高卷积神经网络对输入特征微小变化的鲁棒性。
不同的卷积神经网络架构适用于不同复杂度的图像分类和目标检测任务，较浅的网络（如 LeNet）适用于简单数据集，而更深的网络（如 AlexNet、GoogleNet、VGG 和 ResNet）适用于复杂的大规模图像数据集。

4.2 实践操作建议

选择合适的网络架构 ：根据数据集的复杂度和任务要求选择合适的网络架构。如果是简单的手写数字识别等任务，可以选择 LeNet；如果是大规模图像分类任务，可以考虑使用 AlexNet 或更先进的架构。
调整超参数 ：如卷积核大小、步长、填充、池化核大小等，这些超参数会影响网络的性能和输出大小。可以通过实验和调优来找到最优的超参数组合。
数据预处理 ：对输入图像进行适当的预处理，如调整大小、归一化等，以提高网络的训练效果。例如，LeNet 要求输入图像大小为 32x32，因此需要对 MNIST 数据集的 28x28 图像进行调整。