CNN--卷积神经网络从R-CNN到Faster R-CNN的理解(CIFAR10分类代码)_基于faster r-cnn的用于装配零件识别的卷积神经网络part r-cnn-优快云博客

本文详细介绍了卷积神经网络（CNN）的结构和原理，从输入层、卷积层、激励层、池化层、全连接层等方面进行阐述。探讨了CNN的发展历程，特别是R-CNN、SPP-Net、Fast R-CNN和Faster R-CNN在图像识别与定位中的应用。同时，通过CIFAR10数据集展示了CNN的实际分类代码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 什么是CNN

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一。

我们先来看卷积神经网络各个层级结构图：

上图中CNN要做的事情是：给定一张图片，是车还是马未知，是什么车也未知，现在需要模型判断这张图片里具体是一个什么东西，总之输出一个结果：如果是车那是什么车。

最左边是数据输入层(input layer)，对数据做一些处理，比如去均值（把输入数据各个维度都中心化为0，避免数据过多偏差，影响训练效果）、归一化（把所有的数据都归一到同样的范围）、PCA/白化等等。CNN只对训练集做“去均值”这一步。
CONV：卷积计算层(conv layer)，线性乘积求和。
RELU：激励层(activation layer)，下文有提到：ReLU是激活函数的一种。
POOL：池化层(pooling layer)，简言之，即取区域平均或最大。
FC：全连接层(FC layer)。

这几个部分中，卷积计算层是CNN的核心。

1.1 输入层

在做输入的时候，需要把图片处理成同样大小的图片才能够进行处理。

常见的处理数据的方式有：

去均值(常用)
- AlexNet：训练集中100万张图片，对每个像素点求均值，得到均值图像，当训练时用原图减去均值图像。
- VGG：对所有输入在三个颜色通道R/G/B上取均值，只会得到3个值，当训练时减去对应的颜色通道均值。(此种方法效率高)
**TIPS:**在训练集和测试集上减去训练集的均值。
归一化

幅度归一化到同样的范围。
PCA/白化(很少用)
- 用PCA降维
- 白化是对数据每个特征轴上的幅度归一化。