Deep Visualization:可视化并理解CNN

最新推荐文章于 2025-06-25 14:53:47 发布

原创

最新推荐文章于 2025-06-25 14:53:47 发布 · 置顶 · 3.3k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#deep learning #cnn #AI #visualization

一.前言

CNN作为一个著名的深度学习领域的“黑盒”模型，已经在计算机视觉的诸多领域取得了极大的成功，但是，至今没有人能够“打开”这个“黑盒”，从数学原理上予以解释。这对理论研究者，尤其是数学家来说当然是不可接受的，但换一个角度来说，我们终于创造出了无法完全解释的事物，这也未尝不是一种进步了！

当然，虽然无法完全“打开”这个“黑盒”，但是仍然出现了很多探索这个“黑盒”的尝试工作。其中一个工作就是今天我们讨论的重点：可视化CNN模型，这里的可视化指的是可视化CNN模型中的卷积核。

可视化工作分为两大类，一类是非参数化方法:这种方法不分析卷积核具体的参数，而是先选取图片库，然后将图片在已有模型中进行一次前向传播，对某个卷积核，我们使用对其响应最大的图片块来对之可视化;而另一类方法着重分析卷积核中的参数，使用参数重构出图像。

这一篇文章着重分析第一类可视化方法。

二.发展

最初的可视化工作见于AlexNet[1]论文中。在这篇开创Deep Learning新纪元的论文中，Krizhevshy直接可视化了第一个卷积层的卷积核：

我们知道，AlexNet[1]首层卷积层(conv1)的filters是(96,3,11,11)的四维blob,这样我们就可以得到上述96个11*11的图片块了。显然，这些重构出来的图像基本都是关于边缘，条纹以及颜色的信息。但是这种简单的方法却只适用于第一层卷积层，对于后面的卷积核我们就无法使用这种方法进行直接可视化了。

最开始使用图片块来可视化卷积核是在RCNN[2]论文中，

Girshick[2]的工作显示了数据库中对AlexNet模型较高层(pool5)某个channel具有较强响应的图片块；

之后，在ZFNet[4]论文中,系统化地对AlexNet进行了可视化，并根据可视化结果改进了AlexNet得到了ZFNet,拿到了ILSVRC2014的冠军。这篇文章可以视为CNN可视化的真正开山之作，我们下面将重点分析一下这一篇：[1311.2901] Visualizing and Understanding Convolutional Networks

然后再2015年，Yosinski[5]根据以往的可视化成果(包括参数化和非参数化方法)开发了一个可用于可视化任意CNN模型的toolbox:yosinski/deep-visualization-toolbox,通过简单的配置安装之后，我们就可以对CNN模型进行可视化了。

三.论文解读

Abstract

CNN模型已经取得了非常好的效果，但是正如前面所言，CNN在大多数人眼中，只是一个“黑盒”模型，它为什么表现得这么好，以及如何提升CNN的精度，这些都是不清楚的。这篇文章研究了这些问题。文中介绍了一种新的可视化方法,借助它,我们可以深入了解中间层和分类器的功能。通过使用类似诊断的方式，作者还得到了比AlexNet更好的结构:ZFNet；最后，作者还通过在ImageNet上训练，然后在其他数据集上进行fine-tuning,得到了非常好的结果。

1.Introduction

CNN在图像分类和物体检测领域大放异彩，主要是以下几项因素的作用:1).数以百万计带标签的训练数据的出现;2).GPU的强大计算能力，使得训练大的模型成为可能。

尽管如此，从科学的角度来看，这是令人很不满意的。因为我们并不能解释这个复杂的模型，也就不理解为什么它能达到这么好的效果，而不了解这个模型如何工作和为什么有作用，我们改进模型就只能使用试错法。这篇论文提出了一种新的可视化技术，揭示了模型中任意层的feature map与输入之间的响应关系。

2.Approach

2.1 Visualization with a Deconvnet

为了了解卷积操作，我们需要首先了解中间层的特征激活值。我们使用了一种新的方式将这些激活值映射回输入像素空间，表明了什么样的输入模式将会导致feature map中一个给定的激活值。我们使用反卷积网络来完成映射[6]。一个反卷积网络可以被看成是一个卷积模型，这个模型使用和卷积同样的组件(过滤和池化)，但是却是相反的过程，因此是将特征映射到像素。在[6]中，反卷积网络被提出作为一种进行非监督学习的方法，但是在这里，它没有学习能力，仅仅用来探测一个已经训练好的卷积神经网络。

如上图所示，反卷积可视化以各层得到的特征图作为输入，进行反卷积，得到结果，用以验证显示各层提取到的特征图。为检验一个给定CNN的激活，我们就将该激活的feature map后接一个反卷积网络，然后通过：反池化、反激活、反卷积。重复上述过程直到原始输入层。

Unpooling:

在卷积神经网络中，max-pooling操作是不可逆的，然而我们可以通过一系列switch变量来记录池化过程中最大激活值的坐标位置。在反池化的时候，只把池化过程中最大激活值所在的位置坐标的值激活，其它的值置为0，当然这个过程只是一种近似，因为我们在池化的过程中，除了最大值所在的位置，其它的值也是不为0的。过程如下图所示: