python 卷积神经网络猫狗大战_卷积神经网络-手写数字识别+猫狗大战-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_39831991/article/details/111427957

本文详细介绍了卷积神经网络（CNN）的层级结构，包括卷积层、激励层、池化层和全连接层，并通过实例解释了卷积操作和激活函数的作用。同时，展示了使用Python和Keras实现的两个CNN应用：手写数字识别（MNIST数据集）和猫狗分类（猫狗大战）。在手写数字识别中，采用卷积层、Dropout和全连接层构建模型，实现了较高的识别准确率。而在猫狗大战中，使用了包括MaxPooling2D和BatchNormalization在内的CNN结构，通过训练和测试验证了模型的识别效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

卷积神经网络之层级结构

CNN要做的事情是：给定一张图片，是车还是马未知，是什么车也未知，现在需要模型判断这张图片里具体是一个什么东西，总之输出一个结果：如果是车，那是什么车。所以最左边是数据输入层，对数据做一些处理，比如去均值(把输入数据各个维度都中心化为0，避免数据过多偏差，影响训练效果)、归一化(把所有的数据都归一到同样的范围)、PCA/白化等等。CNN只对训练集做“去均值”这一步。

CNN的核心组成：卷积层、激励层、池化层以及全连接层。

什么是卷积

对图像和滤波矩阵做内积的操作就是所谓的【卷积】操作。局部感知：一般认为图像的空间联系是局部的像素联系比较密切，而距离较远的像素相关性较弱，因此，每个神经元没必要对全局图像进行感知，只要对局部进行感知，然后在更高层将局部的信息综合起来得到全局信息。利用卷积层实现：(特征映射，每个特征映射是一个神经元阵列)：从上一层通过局部卷积滤波器提取局部特征。卷积层紧跟着一个用来求局部平均与二次提取的计算层，这种二次特征提取结构减少了特征分辨率。

权值共享：在局部连接中，每个神经元的参数都是一样的，即：同一个卷积核在图像中都是共享的。(理解：卷积操作实际是在提取一个个局部信息，而局部信息的一些统计特性和其他部分是一样的，也就意味着这部分学到的特征也可以用到另一部分上。所以对图像上的所有位置，都能使用同样的学习特征。)卷积核共享有个问题：提取特征不充分，可以通过增加多个卷积核来弥补，可以学习多种特征。

卷积层尺寸的计算原理

(1) 公式

假设：输入图片(Input)大小为II，卷积核(Filter)大小为KK，步长(stride)为S，填充(Padding)的像素数为P，那卷积层输出(Output)的特征图大小为多少呢?

可以得出推导公式：O=(I-K+2P)/S+1

(2)例子

我们采用的卷积核大小为K=33，填充大小为P=1，步长为S=2。对55的输入特征图进行卷积生成3*3的特征图，结果如下图所示计算公式为：

什么是激励层->激活函数

如果不用激励函数(其实相当于激励函数是f(x) = x)，在这种情况下你每一层节点的输入都是上层输出的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，这种情况就是最原始的感知机(Perceptron)了，那么网络的逼近能力就相当有限。正因为上面的原因，我们决定引入非线性函数作为激励函数，这样深层神经网络表达能力就更加强大(不再是输入的线性组合，而是几乎可以逼近任意函数)。

常用的激活函数：Sigmoid函数

特点：

它能够把输入的连续实值变换为0和1之间的输出，特别的，如果是非常大的负数，那么输出就是0；如果是非常大的正数，输出就是1.

缺点：

sigmoid函数曾经被使用的很多，不过近年来，用它的人越来越少了。主要是因为它固有的一些缺点。

缺点1：在深度神经网络中梯度反向传递时导致梯度爆炸和梯度消失，其中梯度爆炸发生的概率非常小，而梯度消失发生的概率比较大。tanh函数

它解决了Sigmoid函数的不是zero-centered输出问题，然而，梯度消失(gradient vanishing)的问题和幂运算的问题仍然存在。Relu函数

ReLU函数其实就是一个取最大值函数，注意这并不是全区间可导的，但是我们可以取sub-gradient，如上图所示。ReLU虽然简单，但却是近几年的重要成果，有以下几大优点：

1) 解决了gradient vanishing问题 (在正区间)

2)计算速度非常快，只需要判断输入是否大于0

3)收敛速度远快于sigmoid和tanh

ReLU也有几个需要特别注意的问题：