卷积神经网络CNN详解-优快云博客

本文链接：https://blog.youkuaiyun.com/Ivin2017/article/details/78765876

本文介绍了卷积神经网络（CNN）的基础知识，包括CNN的结构、特点和工作原理。CNN由卷积层、降采样层和全连接层组成，通过卷积运算提取图像特征，降采样层减少计算量并保持旋转不变性，全连接层进行分类。CNN的局部区域感知、权值共享和稀疏连接特性使其在图像识别中表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基础：

1.CNN是一种带有卷积结构的深度神经网络，通常至少有两个非线性可训练的卷积层，两个非线性的固定卷积层（又叫Pooling Laye）和一个全连接层，一共至少5个隐含层。

2.Softmax回归：它是在逻辑回归的基础上扩张而来，它的目的是为了解决多分类问题。在这类问题中，训练样本的种类一半在两个以上。Softmax回归是有监督学习算法，它也可以与深度学习或无监督学习方法结合使用。

卷积神经网络中，输入就是一幅幅的图像，权值W就是卷积模版，一般是卷积层和下采样层交替，最后是全连接的神经网络。

局部区域感知能够发现数据的一些局部特征，比如图片上的一个角，一段弧，这些基本特征是构成动物视觉的基础。

CNN中每一层的由多个map组成，每个map由多个神经单元组成，同一个map的所有神经单元共用一个卷积核（即权重），卷积核往往代表一个特征，比如某个卷积核代表一段弧，那么把这个卷积核在整个图片上滚一下，卷积值较大的区域很有可能是一段弧。注意卷积核其实就是权重，我们并不需要单独去计算一个卷积，而是一个固定大小的权重矩阵去图像上匹配时，这个操作与卷积类似，因此我们成为卷积神经网络，实际上，BP也可以看作一种特殊的卷积神经网络，只是这个卷积核就是某层的所有权重，即感知区域是整个图像。权重共享策略减少了需要训练的参数，使得训练出来的模型的泛化能力更强。

CNN一般采用卷积层与采样层交替设置，即一层卷积层接一层采样层，采样层后接一层卷积...这样卷积层提取出特征，在进行组合形成更抽象的特征，最后形成对图片的描述特征，CNN后面还可以跟全连接层，全连接层跟BP一样。

CNN的最大特点就是稀疏连接（局部感受）和权值共享。稀疏连接和权值共享可以减少所要训练的参数，减少计算复杂度。

卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。

二、卷积神经网络结构

卷积神经网络整体架构：卷积神经网络是一种多层的监督学习神经网络，隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能的核心模块。该网络模型通过采用梯度下降法最小化损失函数对网络中的权重参数逐层反向调节，通过频繁的迭代训练提高网络的精度。卷积神经网络的低隐层是由卷积层和最大池采样层交替组成，高层是全连接层对应传统多层感知器的隐含层和逻辑回归分类器。第一个全连接层的输入是由卷积层和子采样层进行特征提取得到的特征图像。最后一层输出层是一个分类器，可以采用逻辑回归，Softmax回归甚至是支持向量机对输入图像进行分类。

卷积神经网络结构包括：卷积层，降采样层，全连接层。每一层有多个特征图，每个特征图通过一种卷积滤波器提取输入的一种特征，每个特征图有多个神经元。

卷积层：使用卷积层的原因是卷积运算的一个重要特点是，通过卷积运算，可以使原信号特征增强，并且降低噪音。

降采样层：使用降采样的原因是，根据图像局部相关性的原理，对图像进行子采样可以减少计算量，同时保持图像旋转不变性。

采样的目的主要是混淆特征的具体位置，因为某个特征找出来后，它的具体位置已经不重要了，我们只需要这个特征与其它的相对位置，混淆具体位置的策略能对变形和扭曲的图片进行识别。

全连接层：采用softmax全连接，得到的激活值即卷积神经网络提取到的图片特征。

卷积层的map个数是在网络初始化指定的，而卷积层的map的大小是由卷积核和上一层输入map的大小决定的，假设上一层的map大小是n*n，卷积核的大小是k*k，则该层的map大小是(n-k+1)*(n-k+1)

采样层是对上一层map的一个采样处理，这里的采样方式是对上一层map的相邻小区域进行聚合统计，区域大小为scale*scale，有些实现是取小区域的最大值，而ToolBox里面的实现是采用2*2小区域的均值。注意：卷积的计算窗口是有重叠的，而采样的计算窗口没有重叠，ToolBox里面计算采样也是用卷积（conv2(A,K,'valid')）来实现的，卷积核是2*2，每个元素都是1/4，去掉计算得到的卷积结果中有重叠的部分。

CNN的基本结构包括两种特殊的神经元层，其一为卷积层，每个神经元的输入与前一层的局部相连，并提取该局部的特征；其二是池化层，用来求局部敏感性与二次特征提取的计算层。这种两次特征提取结构减少了特征分辨率，减少了需要优化的参数数目。

CNN是部分连接网络，其最底层是特征提取层（卷积层），接着是池化层（Pooling），然后可以继续增加卷积、池化或全连接层。用于模式分类的CNN，通常在最后层使用softmax。

一般情况下，CNN的结构形式是：输入层--Conv层--Pooling层--（重复Conv、Pooling层）...--FC(Full-connected)层--输出结果。通常输入层的大小是2的整数倍

一般的CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接收域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置...

三、卷积神经网络求解

CNN通过三个方法来实现识别图像的位移、缩放和扭曲不变性，即局域感受野、权值共享和次抽样。局域感受野指的是每一层网络的神经元只与上一层的一个小邻域内的神经单元连接，通过局域感受野，每个神经元可以提取初级的视觉特征，如方向线段，端点和角点等；权值共享使得CNN具有更少的参数，需要相对较少的训练数据；次抽样可以减少特征的分辨率，实现对位移、缩放和其它形式扭曲的不变性。

CNN阅读