卷积神经网络解析-优快云博客

本文链接：https://blog.youkuaiyun.com/dragonylee/article/details/127055808

卷积层

在数学上，对于函数 $f$ 和 $g$ ，离散形式的卷积定义为
$(f*g)(n)=\sum_{\tau=-\infin}^{\infin}f(\tau)g(n-\tau), \tag 1$
在卷积神经网络中，一般的卷积操作是在图像（或者说是一个矩阵）上的操作，卷积核（Kernel） $K∈Rr×rK\in\mathbb{R}^{r\times r}$ （ $r$ 一般是奇数）对图像 $A$ 的卷积运算表示为
$A'(x,y)=\sum\limits_{1\le i\le r, 1\le j\le r}{K(i,j)A(x-\frac{r+1}{2}+i,y-\frac{r+1}{2}+j)} 。 \tag 2$
直观上来看，就是把卷积核的中心遍历 $A$ 的每个像素，在每个位置做一次矩阵的内积（对应分量相乘后求和），得到的结果就是输出图像对应像素的值。

很多地方会把卷积神经网络中的卷积的输入输出称为特征图（Feature Map） 。这是因为卷积运算可以提取图像的特征，和滤波（Filter） 相同，通过设置不同的卷积核的参数，可以实现图像的特征提取，例如平滑、模糊、边缘检测等。因此将多个卷积层叠加起来，通过神经网络学习的方法，就可以学习到图像想要的特征。

卷积运算有一些需要注意的变化：

步长（Stride） ：卷积核沿着矩阵遍历的步长；
填充（Padding） ：为了防止卷积运算后图像尺寸变小，往往根据卷积核的大小在图像周围进行填充；
膨胀（Dilation） ：对卷积核进行膨胀，多出来的间隙用0填充，此操作可增大感受野；

对比之前学习的MLP可以发现，卷积运算的参数大大减少，仅有卷积核的参数（而卷积核一般比较小），所有的像素都是“参数共享”的，另外后一层的“神经元”（像素）只连接了前一层的一小部分“神经元”（而MLP是全连接），因此卷积运算得到的结果更关注图像的局部特征。

在实际使用中，卷积层（Convolution Layer） 常常会涉及到通道（Channel） 的概念。简而言之，输入通道数目决定了卷积核的“厚度”，卷积核的数目决定了输出通道数目。因此，如果输入通道数为 $c_i$ ，输出通道数（卷积核数目）为 $c_j$ ，卷积核大小为 $r×rr\times r$ ，那么这个卷积层的参数数目为 $ci×r×r×cjc_i\times r\times r \times c_j$ 。