【卷积神经网络】_conv (xij ) =k∑a,b= kwa,b xi+a,j +b-优快云博客

本文探讨了在图像分类任务中，如何从全连接层过渡到卷积层以实现平移不变性和局部性。通过限制权重依赖和使用二维交叉相关，卷积层能够捕捉图像中的关键特征，同时减少了参数数量。此外，介绍了填充和步幅的概念，以控制输出尺寸和减少计算量。多输入输出通道则允许模型处理彩色图像或多模态信息。最后，简要提及了池化层的作用，它们用于缓解位置敏感性并降低计算复杂度。

问题引出

分类猫和狗的图片

使用一个还不错的相机采集图片(12M像素)
RGB图片有36M元素
使用100大小的单隐藏层MLP,模型有3.6B元素
- 远多于世界上所有猫和狗总数（900M狗，600M猫）

如果我们想在一张图片中寻找特定元素
在这里插入图片描述
那么它应该满足两个原则：

平移不变性（即无论他出现在图片的哪个部分，其特征应该相同）
局部性（只需要关注目标周围的特征，而不需要记住全局）

从全连接层出发得到卷积层

之前我们的输入是一个1-D的向量，但如果我们对灰度图不进行压缩，他将有两个纬度的信息（Weight and Height），因此我们重新将输入变成一个2-D的矩阵，同时输出也是一个2-D的矩阵
之前我们要表示某个全连接层之间的参数，只需要两个位置信息 $i, j$ ，那么 $w_{i,j}$ 就表示前一层 $i$ 位置的特征与后一层 $j$ 位置的输出；但对于矩阵而言我们将需要4个位置参数：
$hi,j=∑k,lwi,j,k,lxk,l=∑a,bvi,j,a,bxi+a,j+bh_{i,j}=\sum\limits_{k,l}w_{i,j,k,l}x_{k,l}=\sum\limits_{a,b}v_{i,j,a,b}x_{i+a,j+b}$
- 这里 $h_{i,j}$ 表示输出层的具体一个点， $x_{k,l}$ 表示输入层的具体一个点， $w_{i,j,k,l}$ 表示连接这两个点的参数
- 其中 $k 、 l$ 可以看作是绝对位置，而 $a 、 b$ 是基于 $i 、 j$ 的相对位置

我们再来看上面的两个原则：

平移不变性

对于上面的 $h_{i,j}$ ， $x$ 的平移必然会导致 $h$ 的变化
因此 $v$ 不应该依赖于 $(i, j)$
解决方案： $v_{i,j,a,b}=v_{a,b}$ $hi,j=∑a,bva,bxi+a,j+bh_{i,j}=\sum\limits_{a,b}v_{a,b}x_{i+a,j+b}$
这就是二维交叉相关

局部性

当评估 $h_{i,j}$ 时，我们不应该用远离 $x_{i,j}$ 的参数
解决方案：当 $∣ a ∣, ∣ b ∣ > △$ 时，使得 $v_{a,b}=0$ $hi,j=∑a=−△△∑b=−△△va,bxi+a,j+bh_{i,j}=\sum\limits_{a=-△}^△\sum\limits_{b=-△}^△v_{a,b}x_{i+a,j+b}$

总结

对全连接层使用平移不变性和局部性得到卷积层

卷积层

下面是一个简单的二维卷积层
在这里插入图片描述

在这里插入图片描述

输入 $X$ ： $nh×nwn_h\times n_w$
核 $W$ ： $kh×kwk_h\times k_w$
偏差 $b∈Rb\in R$
输出 $Y$ ： $(nh−kh+1)×(nw−kw+1)(n_h-k_h+1)\times(n_w-k_w+1)$ $Y = X W + b$
$W$ 和 $b$ 都时可学习的参数

总结

卷积层将输入和核矩阵进行交叉相关，加上偏移后得到输出
核矩阵和偏移是可学习的参数
核矩阵的大小是超参数

填充和步幅

填充

在输入周围添加额外的行/列
如果我们填充 $p_h$ 行和 $p_w$ 列，那么输出的形状为：
$(nh−kh+ph+1)×(nw−kw+pw+1)(n_h-k_h+p_h+1)\times(n_w-k_w+p_w+1)$
如果我们选择 $p_h=k_h-1$ ， $p_w=k_w-1$ ，那么输入输出的纬度将相同
- 当 $k_h$ 为奇数：在上下两侧填充 $p_h/2$
- 当 $k_h$ 为偶数：在上侧填充多一行，下侧填充少一行

步幅

填充减小的输出大小与层数线性相关
- 给定输入大小224×224，在使用5×5卷积核的情况下，需要44层将输出降低到4×4
- 需要大量计算才能得到较小输出
步幅是指行/列的滑动步长
- 例：高度3宽度2的步幅
给定高度 $s_h$ 和宽度 $s_w$ 的步幅，输出形状是
$⌊(nh−kh+ph+sh)/sh⌋×⌊(nw−kw+pw+sw)/sw⌋\lfloor (n_h-k_h+p_h+s_h)/s_h\rfloor\times\lfloor (n_w-k_w+p_w+s_w)/s_w\rfloor$
如果 $p_h=k_h-1$ ， $p_w=k_w-1$ ，那么可以简化为：
$⌊(nh−1+sh)/sh⌋×⌊(nw−1+sw)/sw⌋\lfloor (n_h-1+s_h)/s_h\rfloor\times\lfloor (n_w-1+s_w)/s_w\rfloor$
更进一步，如果输入的高度和宽度刚好能被对应的步幅整除：
$(nh/sh)×(nw/sw)(n_h/s_h)\times(n_w/s_w)$
总结
填充和步幅是卷积层的超参数
填充在输入周围添加额外的行/列，来控制输出形状的减少量
步幅是每次滑动核窗口时的行/列的步长，可以成倍的减少输出形状

多输入输出通道

彩色图像可能有RGB三个通道
转换为灰度会丢失信息

多个输入通道
每个通道都有一个卷积核，结果是所有通道卷积结果的和
输入 $X$ ： $ci×nh×nwc_i\times n_h\times n_w$
核 $W$ ： $ci×kh×kwc_i\times k_h\times k_w$
输入 $X$ ： $mh×mwm_h\times m_w$
$Y=∑i=0ciXi,:,:Wi,:,:Y=\sum\limits_{i=0}^{c_i}X_{i,:,:}W_{i,:,:}$

多个输出通道

无论有多少输入通道，到目前为止我们只用到单输出通道
我们可以有多个三维卷积核，每个核生成一个输出通道
输入 $X$ ： $ci×nh×nwc_i\times n_h\times n_w$
核 $W$ ： $co×ci×kh×kwc_o\times c_i\times k_h\times k_w$
输入 $X$ ： $co×mh×mwc_o\times m_h\times m_w$
$Yi,:,:=XWi,:,:,:i=1,...,oY_{i,:,:}=XW_{i,:,:,:}\quad i=1,...,o$