Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization
摘要:
1.我们提出了一种技术,用于为来自大型基于卷积神经网络(CNN)的模型的决策产生“视觉解释”,使其更加透明
2.我们的方法 - 梯度加权类激活映射(Grad-CAM),使用任何目标概念的梯度(比如'dog'或甚至是标题的logits),流入最终的卷积层以生成粗略的定位图,突出显示重要的 图像中用于预测概念的区域。
3.(1)具有完全连接层的CNN(例如VGG),(2)用于结构化输出的CNN(例如字幕),(3)用于具有多模态输入(例如视觉问答)或强化学习的任务的CNN,没有结构改变或重训练。 我们将Grad-CAM与现有的细粒度可视化相结合,创建高分辨率类辨别可视化,Guided Grad-CAM,并将其应用于图像分类,图像字幕和视觉问答(VQA)模型,包括基于ResNet的模型架构。(Grad-CAM)
(caption??什么意思,细粒度什么意思??)
4.(a)提供对这些模型失效模式的见解(表明看似不合理的预测有合理的解释),(b)优于ILSVRC-15弱监督定位任务的先前方法,(c)更忠实于基础模型, (d)通过识别数据集偏差来帮助实现模型概括。
(什么是失效模型的见解???)
5.对于图像字幕和VQA,我们的可视化显示甚至基于非注意力的模型也可以对输入进行本地化。最后,我们设计并进行人体研究以测量Grad-CAM解释是否有助于用户建立对深度网络预测的适当信任并显示Grad-CAM 帮助未经训练的用户成功地从“弱”的网络中辨别出“更强大”的深层网络,即使两者都做出相同的预测。
introduction:
1.可解释性的作用主要集中在三个方面:
(1)例如知识问答,(人比机器要强),帮助研究者确定方向,分析失败原因
(2)图像分类,(人和机器差不多),让人能够更加信任机器
(3)在机器教学方面,例如国际象棋,
周博磊在2016年的工作:只能限定几种cnn,并在准确率和模型复杂度上做了平衡
而我们的工作不用限定cnn,不用在模型准确率和复杂度上做平衡
什么是好的可视化解释?
1.证明任何的目标类是类可是别的 2.高分辨率的,即能捕捉到细粒度特征
(a)带有猫和狗的原始图像。 (b-f)根据VGG-16和ResNet的各种可视化支持猫类。 (b)引导反向传播[42](guied backprop):强调所有贡献特征。 (c,f)Grad-CAM(Ours):定位类判别区域,(d)组合(b)和(c)给出Guided Grad-CAM,它提供高分辨率的类判别可视化。 有趣的是,通过我们的Grad-CAM技术实现的局部化(c)与遮挡灵敏度(e)的结果非常相似,而计算的成本则低了几个数量级。 (f,l)是ResNet-18层的Grad-CAM可视化。 注意,在(c,f,i,l)中,红色区域对应于类的高分,而在(e,k)中,蓝色对应于类的证据。 图最好用彩色看。(这个图能代表的意义是什么?)
如1d和1j,Guided Grad-CAM,是图d,不仅是能够将猫表示出来,而且还能够将猫的纹理表示出来。(这能代表什么?光guided backprop不能显示纹理吗?好像也可以支部狗没有那么明显)
我们的贡献可以总结如下:
1.我们提出Grad-CAM,一种类别判别定位技术,可以从任何基于CNN的网络生成视觉解释,而无需进行架构更改或重新训练。 我们评估Grad-CAM的localiza