卷积神经网络学习笔记

最新推荐文章于 2025-11-25 11:19:36 发布

原创最新推荐文章于 2025-11-25 11:19:36 发布 · 139 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#cnn #学习 #笔记

在深度学习领域，卷积神经网络（CNN）发挥着关键作用。

全连接网络存在权值连接过多的问题，这导致计算速度缓慢、收敛困难，容易陷入局部极小值且产生过拟合。例如，处理 1000×1000 的图像，若隐含层有 100 万个节点，输入到隐含层的参数数量将达到1×10^{12}数量级。为解决这些问题，局部连接网络应运而生，它减少了权值连接，每个节点仅连接上一层的少数神经元，提高了计算效率。同时，深度学习采用信息分层处理的方式，模拟人类视觉感知，通过多层网络逐步提取更高级别的特征。

深度学习平台众多，如 TensorFlow、PyTorch 等。不同平台在学习材料丰富程度、CNN 和 RNN 建模能力、易用性、运行速度以及多 GPU 支持程度等方面各有优劣。以 PyTorch 为例，它提供了丰富的学习资源，包括 60 分钟快速入门教程、官方教程等。其基本概念包括张量（Tensor），可理解为多维数组；计算图，用有向图描述数学计算过程；还可使用 Dataset、DataLoader 读取数据，用变量存储神经网络参数。

深度学习在图像领域有多种典型任务，如基于图像中主要对象进行分类的图像分类、预测包含主要对象区域的目标定位、对图像中所有对象进行定位和分类的目标识别，以及语义分割、实例分割、关键点检测等。

CNN 的进化历经多个阶段。1998 年 LeNet 出现，之后 AlexNet、VGGNet 等相继诞生。CNN 的基本概念包含特征提取，受人类视觉感知启发，通过卷积操作提取图像特征；填充（Padding）用于在矩阵边界填充值以增大矩阵大小；步长（Stride）控制卷积核移动的间隔；多通道卷积可处理如 RGB 图像等多通道数据；池化（Pooling）则利用局部统计特征，如均值或最大值，减少特征数量。

LeNet - 5 网络由 YANN LECUN 等人提出，用于手写字符识别。它的结构包含多个卷积层、下采样层和全连接层。C1 层有 6 个 Feature map，每个神经元对输入进行 5×5 卷积；S2 层是池化层；C3 层有 16 个 Feature map；S4 层与 S2 层工作原理相同；C5 层有 120 个神经元，与 S4 全连接；F6 层有 84 个神经元，与 C5 全连接；输出层由欧式径向基函数单元构成。与现代网络相比，LeNet - 5 卷积时不填充，采用平均池化，使用 Sigmoid 或 tanh 作为激活函数，层数浅且参数少。

总结：通过对上述内容的学习，对卷积神经网络基础有了系统的认识。从全连接网络的问题出发，了解到深度学习平台的多样性和特点，掌握了 CNN 的基本概念和典型任务，深入剖析了 LeNet - 5 网络结构。