【深度学习入门】深度学习知识点总结_深度学习里面的卷积的定义-优快云博客

本文链接：https://blog.youkuaiyun.com/2401_86272648/article/details/141819486

一、卷积

（1）什么是卷积

定义：特征图的局部与卷积核做内积的操作。

作用：① 广泛应用于图像处理领域。卷积操作可以提取图片中的特征，低层的卷积层提取局部特征，如：边缘、线条、角。

② 高层的卷积从低层的卷积层中学到更复杂的特征，即局部特征的组合，如前景与背景的组合，从而实现图片的分类和识别。

（2）卷积的特点

主要特点：局部感知和权值共享。

局部感知：卷积的大小远远小于图像，局部的像素联系比较密切，而距离较远的像素相关性较弱。因此，每个特征没必要对全局图像进行感知，只需对局部进行感知，然后在更高层将局部的信息综合起来得到全局信息。

权值共享：使用相同的卷积核去提取特征，参数可以共享。带来了平移不变性：无论目标物体平移变换到图像中的哪个位置，卷积核都能以相同的方式（卷积核相同）对其进行处理，提取出相同的特征。

（3）卷积和全连接的区别

输入输出的结构：卷积输入输出都是 NCHW （批次大小、通道数、高度、宽度）格式，全连接输入输出都是 NV （批次大小、特征向量维度）结构。

知识点补充：深度学习框架中，数据一般是4D，如NCHW，分别代表 Batch（N）、Channel（C）、Height（H）、Width（W）。如：假设N=2，C=16，H=5，W=4，逻辑上就是如下4D图：

计算机存储上是一维的二进制，因此存取数据的顺序是：①W方向②H方向③C方向④N方向。用上图举例，即（W）000、001、……、（H）004、005、……、019、（C）020、021、……、039、（N）320、……、639。

全连接会把一整个特征图拉成一个向量（V），因此只有NV两个维度。

层之间的连接方式：全连接网络两层之间的神经元是两两相连（两层各任选出一个神经元，这两个神经元是连接的），卷积是部分相连（提取的特征只与卷积核覆盖的局部图像的特征有关）。

全连接不适合做 CV：① 全连接导致参数量过多，提高过拟合风险，即在训练集上表现好，在测试集上表现差，扩展性差。

② 使用Sigmoid激活函数，它的导数值最大为0.25，网络每更深一层，梯度值就会乘上一个不超过0.25的导数，使梯度值越来越小，甚至“梯度消失”。因此，全连接网络存在局限，梯度传播很难超过 3 层。

③ 邻近像素关联性强，距离较远像素关联性弱。全连接网络将每个像素视为独立特征，没有利用像素之间的位置关系信息。

卷积适合做 CV：① 局部连接（卷积核只有局部特征图的大小）、权重共享（使用相同的卷积核）、池化（压缩特征图尺寸，随之使用的卷积核尺寸减小），参数量大大减少。

② 使用Relu激活函数，其在正值区域梯度恒为1，避免了Sigmoid激活函数在极端值处梯度消失的问题，有利于深层网络训练。

③ 局部感知，利用了像素之间的位置关系信息。

（4）卷积的相关计算

卷积结果的长、宽计算公式：

计算结果向下取整。、表示输入数据的长、宽；、表示卷积核的长、宽；P表示边缘填充的宽度，乘以2是因为数据的两边都会填充P的宽度；S为滑动窗口的步长。

卷积层参数量的计算：

表示卷积核的高度，表示卷积核的宽度，表示输入的通道数（卷积核的通道数），表示输出的通道数（卷积核的个数）。结尾再加，是因为每个卷积核还有一个偏置项。

（5）感受野

定义：输出特征图上的一个特征点对应于原图像素点的映射区域的大小。

来源：VGG网络提出，通过堆叠多层小卷积核（如3*3）代替一层大卷积核（如5*5、7*7），保持了与大卷积核相同的感受野，并增加了其它优势：

① 减少了网络的参数，随之降低了过拟合风险、提高了计算速度。

② 卷积层越多，每层专注于学习更简单的问题，提取的特征越细致。

③ 卷积层越多，加入的非线性变换越多（Relu激活函数），可以表现更复杂的东西。

有效感受野：① 实际上的有效感受野（认为每个像素的贡献不同）远远小于理论感受野（认为每个像素的贡献相同）。并且越靠近感受野中心的特征值，在卷积层中被使用次数越多，即对输出层的特征图点的贡献越大，即越有效，如下图所示：

x表示卷积层的输入，w表示卷积层的权重，o表示卷积层的输出。靠感受野边缘的特征只参与了的计算，而靠中间的参与了第一层输出的所有特征值的计算。因此，只能通过来影响，而能通过、、、、、、、、来影响，很明显，比对更有效。输出层的特征点的感受野有效性，类高斯分布向边缘递减，如下图所示：

② anchor 应该与有效感受野相匹配。

感受野大小计算公式：

注意：① 第一层卷积层的输出特征图像素的感受野的大小等于滤波器（卷积核）的大小。

② 深层卷积层的感受野大小和它之前所有层的滤波器大小和步长有关。

③ 计算感受野大小时，忽略了图像边缘填充的影响，即不考虑 padding 的大小。以下公式，是从输入层开始，逐渐迭代计算到输出层的特征的感受野。

其中表示第 k-1 层输出的特征图对应的感受野大小；表示第 k 层的卷积核、或者池化层的池化大小；表示第 i 层的滑动窗口步长；初始值为1。用以下的一个例子示范感受野大小的计算：

第一层输出的感受野：

第二层输出的感受野：

第三层输出的感受野：

神经元感受野的值越大表示其能接触到的原始图像范围就越大，也意味着它可能蕴含更为全局，语义层次更高的特征；相反，值越小则表示其所包含的特征越趋向局部和细节。因此感受野的值可以用来大致判断每一层的抽象层次。

如果使用的是空洞卷积，公式则如下：

其中表示第 k 层的空洞率。

（6）反卷积（转置卷积）

作用：主要用于上采样，就是扩大输入特征图的尺寸；还可以用来近似重构输入图像、卷积层可视化。

运算步骤：以下的 k 表示卷积核尺寸；s 表示每个像素间的距离，如下图所示：

p 表示初始卷积核可以卷积到图像的尺寸，如下图所示：

① 填充输入特征图：在输入特征图的元素间填充 s-1 长度的行和列，填充值为0；在特征图四周填充 k-p-1 长度的行和列，填充值为0。

② 翻转卷积核：上下、左右翻转。

③ 做普通的卷积运算。

可以看到转置卷积最终还是做普通的卷积，因此，转置卷积是一种特殊的正向卷积。

示例：