在深度学习领域,卷积神经网络(CNN)发挥着关键作用。
全连接网络存在权值连接过多的问题,这导致计算速度缓慢、收敛困难,容易陷入局部极小值且产生过拟合。例如,处理 1000×1000 的图像,若隐含层有 100 万个节点,输入到隐含层的参数数量将达到1×10^{12}数量级。为解决这些问题,局部连接网络应运而生,它减少了权值连接,每个节点仅连接上一层的少数神经元,提高了计算效率。同时,深度学习采用信息分层处理的方式,模拟人类视觉感知,通过多层网络逐步提取更高级别的特征。
深度学习平台众多,如 TensorFlow、PyTorch 等。不同平台在学习材料丰富程度、CNN 和 RNN 建模能力、易用性、运行速度以及多 GPU 支持程度等方面各有优劣。以 PyTorch 为例,它提供了丰富的学习资源,包括 60 分钟快速入门教程、官方教程等。其基本概念包括张量(Tensor),可理解为多维数组;计算图,用有向图描述数学计算过程;还可使用 Dataset、DataLoader 读取数据,用变量存储神经网络参数。
深度学习在图像领域有多种典型任务,如基于图像中主要对象进行分类的图像分类、预测包含主要对象区域的目标定位、对图像中所有对象进行定位和分类的目标识别,以及语义分割、实例分割、关键点检测等。
CNN 的进化历经多个阶段。1998 年 LeNet 出现,之后 AlexNet、VGGNet 等相继诞生。CNN 的基本概念包含特征提取,受人类视觉感知启发,通过卷积操作提取图像特征;填充(Padding)用于在矩阵边界填充值以增大矩阵大小;步长(Stride)控制卷积核移动的间隔;多通道卷积可处理如 RGB 图像等多通道数据;池化(Pooling)则利用局部统计特征,如均值或最大值,减少特征数量。
LeNet - 5 网络由 YANN LECUN 等人提出,用于手写字符识别。它的结构包含多个卷积层、下采样层和全连接层。C1 层有 6 个 Feature map,每个神经元对输入进行 5×5 卷积;S2 层是池化层;C3 层有 16 个 Feature map;S4 层与 S2 层工作原理相同;C5 层有 120 个神经元,与 S4 全连接;F6 层有 84 个神经元,与 C5 全连接;输出层由欧式径向基函数单元构成。与现代网络相比,LeNet - 5 卷积时不填充,采用平均池化,使用 Sigmoid 或 tanh 作为激活函数,层数浅且参数少。
总结:通过对上述内容的学习,对卷积神经网络基础有了系统的认识。从全连接网络的问题出发,了解到深度学习平台的多样性和特点,掌握了 CNN 的基本概念和典型任务,深入剖析了 LeNet - 5 网络结构。
2697

被折叠的 条评论
为什么被折叠?



