神经网络与深度学习
学习笔记3
一、 典型神经网络
1. AlexNet(2012 年)
背景与突破:首次在 ImageNet 竞赛中以显著优势夺冠,证明了深度卷积网络在复杂图像分类中的有效性。网络包含 5 层卷积层和 3 层全连接层,参数规模达 6000 万,首次引入 ReLU 激活函数、Dropout 正则化和双 GPU 训练策略。
核心改进:
ReLU 激活函数:解决 Sigmoid/tanh 的梯度消失问题,加速收敛。
数据增强:随机裁剪、水平翻转、颜色抖动等策略提升模型泛化能力。
局部响应归一化(LRN):模拟生物神经元的侧抑制机制,增强特征竞争力(虽然后续应用较少)。
双 GPU 并行:通过分块计算减少显存占用,支持更大规模网络训练。
结构特点:卷积层采用大尺寸核(如 11×11)和大步长(如 stride=4),配合最大池化快速降低空间维度,全连接层通过 Dropout 随机失活神经元缓解过拟合。
2. VGG-16(2014 年)
设计哲学:以 “深度优先” 为原则,通过堆叠 3×3 小尺寸卷积核(感受野等价于 5×5/7×7 核)和 2×2 最大池化,构建 16 层权重层的深层网络。
网络结构:
由 5 组卷积块组成,每组内使用 2-3 个 3×3 卷积层,通道数随层数增加(64→128→256→512),空间尺寸减半(224×224→112×112→…→7×7)。
全连接层与 AlexNet 类似,但参数总量达 1.38 亿,依赖大规模数据和计算资源。
意义:验证了 “增加深度而非宽度” 的有效性,其规整的结构成为后续网络设计的基准(如 ResNet 借鉴其层级划分)。
3. 残差网络(ResNet,2015 年)
核心问题:深度网络的 “退化” 现象 —— 层数增加导致训练误差上升(非过拟合)。
残差块(Residual Block):
引入捷径连接(Shortcut Connection),使输入可直接跳过一层或多层,学习目标从 “原始特征” 变为 “残差特征”(即H(x) = x + F(x))。
解决梯度消失问题:反向传播时梯度可通过捷径直接回传,避免多层连乘导致的梯度衰减。
网络变种:
Basic Block:适用于浅层网络(如 ResNet-18/34),由两个 3×3 卷积层构成。
Bottleneck Block:适用于深层网络(如 ResNet-50/101/152),通过 1×1 卷积先降维再升维,减少计算量(如输入通道 256→64→256,计算量降低为原来的 1/4)。
实验验证:在 CIFAR-10 数据集上,110 层 ResNet 训练误差低于 20 层普通网络,证明深度可有效提升性能。
二、常用数据集与应用场景
1. 图像分类
MNIST/Fashion-MNIST:手写数字 / 服饰分类,28×28 灰度图,适合验证基础模型(如 LeNet 变体)。
CIFAR-10/100:32×32 彩色图,10/100 类,挑战更高(需更深网络或数据增强)。
ImageNet:1000 类高分辨率图像(ILSVRC 子集),用于训练大型模型(如 ResNet/VGG),评估通用图像分类能力。
2. 目标检测与分割
PASCAL VOC:20 类物体,包含检测、分割标注,经典数据集(2012 年后停止更新)。
MS COCO:80 类物体,注重场景理解(如多人多物交互),标注包括边界框、实例分割、关键点,当前主流基准。
1729

被折叠的 条评论
为什么被折叠?



