卷积神经网络(CNN)是专为处理网格结构数据(如图像、视频)设计的深度学习架构,核心优势是通过局部感知和参数共享,高效提取空间特征并减少模型参数量。
一、CNN 核心原理:解决传统神经网络的痛点
传统全连接神经网络处理图像时,存在参数量爆炸和忽略空间局部性的问题,CNN 通过两大核心机制解决。
- 局部感知(Local Receptive Fields):
- 每个神经元仅接收前一层局部区域的输入,而非全部像素。
- 这符合人类视觉规律,即先感知边缘、纹理等局部特征,再组合成复杂物体。
- 参数共享(Parameter Sharing):
- 同一卷积核(Filter)在整个图像上滑动时,权重保持不变。
- 大幅减少参数量,例如 3×3 卷积核仅需 9 个参数,无关图像尺寸。
二、CNN 的核心层结构
CNN 的典型结构由输入层开始,经多个特征提取层和分类层组成,各层功能明确。
- 卷积层(Convolutional Layer):
- 核心功能:提取图像局部特征,如边缘、颜色块、纹理。
- 关键参数:
- 卷积核大小:常见 3×3、5×5,越小越能捕捉细粒度特征。
- 步长(Stride):卷积核滑动的步幅,步长 1 时覆盖全部区域,步长 2 时尺寸减半。
- 填充(Padding):在图像边缘补 0,避免卷积后特征图尺寸缩小(常用 Same Padding,输出尺寸与输入一致)。
- 激活层(Activation Layer):
- 紧跟卷积层,引入非线性,让网络能学习复杂特征关系。
- 主流函数:ReLU(Rectified Linear Unit),公式为 max (0, x),可缓解梯度消失问题。
- 池化层(Pooling Layer):
- 核心功能:降维(减少特征图尺寸和计算量)、增强鲁棒性(抗轻微位移)。
- 常见类型:
- 最大池化(Max Pooling):取局部区域最大值,保留最显著特征。
- 平均池化(Average Pooling):取局部区域平均值,保留整体信息。
- 常用参数:2×2 池化核,步长 2,可使特征图尺寸减半。
- 全连接层(Fully Connected Layer):
- 位于网络后端,将池化层输出的高维特征图 “拉平” 为一维向量。
- 通过全连接权重,将特征映射到具体类别(如 1000 类 ImageNet 任务输出 1000 个概率值)。
- 输出层(Output Layer):
- 结合激活函数输出最终结果,分类任务用Softmax(输出类别概率),回归任务直接输出数值。
三、经典 CNN 模型演进
CNN 模型从简单到复杂,不断突破性能瓶颈,关键模型的创新点具有里程碑意义。

四、CNN 的核心应用场景
CNN 在计算机视觉(CV)领域占据主导地位,落地场景覆盖多行业。
- 图像分类:判断图像类别,如识别植物种类、工业零件缺陷类型。
- 目标检测:定位并识别图像中多个物体,如自动驾驶识别行人、车辆、交通灯。
- 图像分割:将图像像素级分类,如医疗影像中分割肿瘤区域、卫星图像分割土地类型。
- 图像生成与编辑:风格迁移(如将照片转为梵高画风)、超分辨率重建(提升图像清晰度)。
2052

被折叠的 条评论
为什么被折叠?



