【CNN】ZFNet——让卷积神经网络不再是一个黑盒模型。-优快云博客

ZFNet在2013年ILSVRC图像分类竞赛中获得冠军，错误率为11.19%。该文深入剖析ZFNet架构，包括网络结构、特征可视化、调参实验等内容，并附带PyTorch实现代码。

前言

ZFNet在2013年 ILSVRC 图像分类竞赛获得冠军，错误率11.19% ，比2012年的AlexNet降低了5%，ZFNet是由 Matthew D.Zeiler 和 Rob Fergus 在 AlexNet 基础上提出的大型卷积网络。ZFNet解释了为什么卷积神经网络可以在图像分类上表现的如此出色，以及研究了如何优化卷积神经网络。ZFNet提出了一种可视化的技术，通过可视化，我们就可以了解卷积神经网络中间层的功能和分类器的操作，这样就就可以找到较好的模型。ZFNet还进行消融实验来研究模型中的每个组件，它会对模型有什么影响。

1. ZFNet简介

ZFNet其实跟AlexNet很像， ZFNet 仅仅是在 AlexNet 上做了一些调参：
改变了 AlexNet 的第一层，即将卷积核的尺寸大小 11x11 变成 7x7，并且将步长 4 变成了 2（就这么一点点操作就改变了整个卷积神经网络的性能，并在2013年ImageNet大赛中夺冠）。下面是ZFNet和AlexNet的详细网络参数：
在这里插入图片描述
除此之外，ZFNet最大的贡献是对卷积操作为什么对图像数据有效这个问题做出的一系列实验和解释。

2. 对卷积计算结果（feature maps）的可视化

作者将卷积核的计算结果（feature maps）映射回原始的像素空间（映射的方法为反卷积，反池化）并进行可视化。例如，下图Layer1区域最左上角的九宫格代表第一层卷积计算得到的前九张feature maps映射回原图像素空间后的可视化（称为f9）。第一层卷积使用96个卷积核，这意味着会得到96张feature maps，这里的前九张feature maps是指96个卷积核中值最大的9个卷积核对应生成的feature maps（这里称这9个卷积核为k9，即，第一层卷积最关注的前九种特征）。可以发现，这九种特征都是颜色和纹理特征，即蕴含语义信息少的结构性特征。

为了证明这个观点，作者又将数据集中的原始图像裁剪成小图，将所有的小图送进网络中，得到第一层卷积计算后的feature maps。统计能使k9中每个kernel输入计算结果最大的前9张输入小图，即9*9=81张，如下图红框中右下角所示。结果表明刚刚可视化的f9和这81张小图表征的特征是相似的，且一一对应的。由此证明卷积网络在第一层提取到的是一些颜色，纹理特征。
在这里插入图片描述
同理，观察Layer2和Layer3的可视化发现，第二次和第三次卷积提取到的特征蕴含的语义信息更丰富，不再是简单的颜色纹理信息，而是一些结构化的特征，例如蜂窝形状，圆形，矩形等等。那么网络的更深层呢？我们看下图：
在这里插入图片描述
在网络的深层，如第四层，第五层卷积提取到的是更高级的语义信息，如人脸特征，狗头特征，鸟腿鸟喙特征等等。
最后，越靠近输出端，能激活卷积核的输入图像相关性越少（尤其是空间相关性），例如Layer5中，最右上角的示例：feature map中表征的是一种绿色成片的特征，可是能激活这些特征的原图相关性却很低（原图是人，马，海边，公园等，语义上并不相干）；其实这种绿色成片的特征是‘草地’，而这些语义不相干的图片里都有‘草地’。‘草地’是网络深层卷积核提取的是高级语义信息，不再是低级的像素信息，空间信息等等。

总结：CNN输出的特征图有明显的层级区分。

越靠近输入端，提取的特征所蕴含的语义信息比较少，例如颜色特征，边缘特征，角点特征等等；

越靠近输出端，提取的特征所蕴含的语义信息越丰富，例如Layer4中的狗脸，鸟腿等，都属于目标级别的特征。

3. 网络中对不同特征的学习速度

如下图所示，横轴表示训练轮数，纵轴表示不同层的feature maps映射回像素空间后的可视化结果：
在这里插入图片描述
由此可以看出，low-level的特征(颜色，纹理等)在网络训练的训练前期就可以学习到，即更容易收敛；high-level的语义特征在网络训练的后期才会逐渐学到。由此展示了不同特征的进化过程。这也是一个合理的过程，毕竟高级的语义特征，要在低级特征的基础上学习提取才能得到。

4. 图片平移，缩放，旋转对CNN的影响

下图是探究图片平移对卷积模型影响的实验，a1是五张不同的图片经过不同大小的左右平移后的结果。

a2是原始图片与经过平移后的图片分别送进卷积网络后，第一层卷积计算得到的feature maps之间的欧氏距离，可以看出当图片平移0个像素时（即图中横轴=0处），距离最小（等于0）。其他位置随着左右平移，得到的距离都会陡增或陡减。五条彩色曲线分别代表五张不同的原始图片。

a3是原始图片与经过平移后的图片分别送进卷积网络后，第七层卷积计算得到的feature maps之间的欧氏距离，可以看出趋势与a2类似；但是，增减的曲线变换更平缓，这一定程度上说明了网络的深层提取的是高级语义特征，而不是低级的颜色，纹理，空间特征。这种语义信息不会随着平移操作而轻易改变，例如狗的图片平移后还是狗。

这个性质叫做：卷积拥有良好的平移不变性。

最后，a4表示的是原始图片与经过平移后的图片分别送进卷积网络后，卷积网络最后的识别结果。可以看出识别准确率是相对平稳的，且在横轴x=0时，识别准确率较高（此时，图片不平移，识别物体基本在图片中心位置）。
在这里插入图片描述
下图探究图片缩放对卷积模型影响的实验，实验方法和表述与上面探讨平移时的设置类似。结果表明，网络的浅层相较于网络的深层对缩放操作更敏感；且最终的识别准确率较平稳。这个趋势跟探究平移操作对卷积模型影响的趋势类似，即：卷积操作也具有良好的缩放不变性。
在这里插入图片描述
下图是探究图片旋转对卷积模型影响的实验，可以看出旋转操作对卷积的影响正好与平移和缩放相反：卷积第一层对旋转的敏感程度较低，第七层对旋转的敏感程度高。这是因为颜色，纹理这些低级特征旋转前后还是相似的特征；但是目标级别的高级语义特征却不行，例如“特征9”旋转180°后变成了“特征6”. 看最终的识别准确率曲线也能发现旋转0°和350°时模型的识别准确率最高，因为此时旋转后模型最接近原始图片。对于某些存在对称性质的特征，例如原图中的电视，在旋转90°，180°，270°时都有不错的识别准确率。因此，卷积操作不具有良好的缩放不变性。