《卷积神经网络知识点总结与思考》

原创于 2025-10-24 14:45:15 发布 · 786 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#1024程序员节 #卷积神经网络

卷积神经网络（CNN）是专为处理网格结构数据（如图像、视频）设计的深度学习架构，核心优势是通过局部感知和参数共享，高效提取空间特征并减少模型参数量。

一、CNN 核心原理：解决传统神经网络的痛点

传统全连接神经网络处理图像时，存在参数量爆炸和忽略空间局部性的问题，CNN 通过两大核心机制解决。

局部感知（Local Receptive Fields）：
- 每个神经元仅接收前一层局部区域的输入，而非全部像素。
- 这符合人类视觉规律，即先感知边缘、纹理等局部特征，再组合成复杂物体。
参数共享（Parameter Sharing）：
- 同一卷积核（Filter）在整个图像上滑动时，权重保持不变。
- 大幅减少参数量，例如 3×3 卷积核仅需 9 个参数，无关图像尺寸。

二、CNN 的核心层结构

CNN 的典型结构由输入层开始，经多个特征提取层和分类层组成，各层功能明确。

卷积层（Convolutional Layer）：
- 核心功能：提取图像局部特征，如边缘、颜色块、纹理。
- 关键参数：
  - 卷积核大小：常见 3×3、5×5，越小越能捕捉细粒度特征。
  - 步长（Stride）：卷积核滑动的步幅，步长 1 时覆盖全部区域，步长 2 时尺寸减半。
  - 填充（Padding）：在图像边缘补 0，避免卷积后特征图尺寸缩小（常用 Same Padding，输出尺寸与输入一致）。
激活层（Activation Layer）：
- 紧跟卷积层，引入非线性，让网络能学习复杂特征关系。
- 主流函数：ReLU（Rectified Linear Unit），公式为 max (0, x)，可缓解梯度消失问题。
池化层（Pooling Layer）：
- 核心功能：降维（减少特征图尺寸和计算量）、增强鲁棒性（抗轻微位移）。
- 常见类型：
  - 最大池化（Max Pooling）：取局部区域最大值，保留最显著特征。
  - 平均池化（Average Pooling）：取局部区域平均值，保留整体信息。
- 常用参数：2×2 池化核，步长 2，可使特征图尺寸减半。
全连接层（Fully Connected Layer）：
- 位于网络后端，将池化层输出的高维特征图 “拉平” 为一维向量。
- 通过全连接权重，将特征映射到具体类别（如 1000 类 ImageNet 任务输出 1000 个概率值）。
输出层（Output Layer）：
- 结合激活函数输出最终结果，分类任务用Softmax（输出类别概率），回归任务直接输出数值。