卷积神经网络(Convolutional Neural Network, CNN) 是一种深度学习模型,专门用于处理具有网格结构的数据(如图像、视频等)。它在计算机视觉领域表现卓越,广泛应用于图像分类、目标检测、图像分割等任务。CNN 的核心思想是通过卷积操作从数据中提取局部特征,并逐步构建高层次的语义信息。
CNN 的基本结构
-
卷积层(Convolutional Layer)
- 卷积层是 CNN 的核心组件,负责从输入数据中提取局部特征。
- 卷积核(Kernel/Filter) 在输入数据上滑动,计算局部区域的加权和,生成特征图(Feature Map)。
- 卷积操作后通常会使用非线性激活函数(如 ReLU),以引入非线性能力,增强模型的表达能力。
-
池化层(Pooling Layer)
- 池化层用于降采样,减少特征图的尺寸,从而降低计算量并增强模型的鲁棒性。
- 常见的池化操作包括最大池化(Max Pooling)和平均池化(Average Pooling)。
-
全连接层(Fully Connected Layer)
- 在卷积和池化操作之后,特征图会被展平并输入全连接层,用于最终的分类或回归任务。