神经网络与深度学习学习笔记3

最新推荐文章于 2025-11-24 19:11:26 发布

原创最新推荐文章于 2025-11-24 19:11:26 发布 · 308 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #神经网络 #学习

神经网络与深度学习

学习笔记3

一、典型神经网络

1. AlexNet（2012 年）

背景与突破：首次在 ImageNet 竞赛中以显著优势夺冠，证明了深度卷积网络在复杂图像分类中的有效性。网络包含 5 层卷积层和 3 层全连接层，参数规模达 6000 万，首次引入 ReLU 激活函数、Dropout 正则化和双 GPU 训练策略。

核心改进：

ReLU 激活函数：解决 Sigmoid/tanh 的梯度消失问题，加速收敛。

数据增强：随机裁剪、水平翻转、颜色抖动等策略提升模型泛化能力。

局部响应归一化（LRN）：模拟生物神经元的侧抑制机制，增强特征竞争力（虽然后续应用较少）。

双 GPU 并行：通过分块计算减少显存占用，支持更大规模网络训练。

结构特点：卷积层采用大尺寸核（如 11×11）和大步长（如 stride=4），配合最大池化快速降低空间维度，全连接层通过 Dropout 随机失活神经元缓解过拟合。

2. VGG-16（2014 年）

设计哲学：以 “深度优先” 为原则，通过堆叠 3×3 小尺寸卷积核（感受野等价于 5×5/7×7 核）和 2×2 最大池化，构建 16 层权重层的深层网络。

网络结构：

由 5 组卷积块组成，每组内使用 2-3 个 3×3 卷积层，通道数随层数增加（64→128→256→512），空间尺寸减半（224×224→112×112→…→7×7）。

全连接层与 AlexNet 类似，但参数总量达 1.38 亿，依赖大规模数据和计算资源。

意义：验证了 “增加深度而非宽度” 的有效性，其规整的结构成为后续网络设计的基准（如 ResNet 借鉴其层级划分）。

3. 残差网络（ResNet，2015 年）

核心问题：深度网络的 “退化” 现象 —— 层数增加导致训练误差上升（非过拟合）。

残差块（Residual Block）：

引入捷径连接（Shortcut Connection），使输入可直接跳过一层或多层，学习目标从 “原始特征” 变为 “残差特征”（即H(x) = x + F(x)）。

解决梯度消失问题：反向传播时梯度可通过捷径直接回传，避免多层连乘导致的梯度衰减。

网络变种：

Basic Block：适用于浅层网络（如 ResNet-18/34），由两个 3×3 卷积层构成。

Bottleneck Block：适用于深层网络（如 ResNet-50/101/152），通过 1×1 卷积先降维再升维，减少计算量（如输入通道 256→64→256，计算量降低为原来的 1/4）。

实验验证：在 CIFAR-10 数据集上，110 层 ResNet 训练误差低于 20 层普通网络，证明深度可有效提升性能。

二、常用数据集与应用场景

1. 图像分类

MNIST/Fashion-MNIST：手写数字 / 服饰分类，28×28 灰度图，适合验证基础模型（如 LeNet 变体）。

CIFAR-10/100：32×32 彩色图，10/100 类，挑战更高（需更深网络或数据增强）。

ImageNet：1000 类高分辨率图像（ILSVRC 子集），用于训练大型模型（如 ResNet/VGG），评估通用图像分类能力。

2. 目标检测与分割

PASCAL VOC：20 类物体，包含检测、分割标注，经典数据集（2012 年后停止更新）。

MS COCO：80 类物体，注重场景理解（如多人多物交互），标注包括边界框、实例分割、关键点，当前主流基准。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。