论文阅读：Grad-CAM

最新推荐文章于 2025-09-21 07:32:59 发布

原创

最新推荐文章于 2025-09-21 07:32:59 发布 · 2.2k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #可视化

提出Grad-CAM技术，为基于CNN的模型决策提供可视化解释，无需改变架构或重新训练。结合高分辨率可视化技术生成GuidedGrad-CAM，帮助用户理解和评估模型预测可靠性。

Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

神经网络输出可视化

文章目录

Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization
摘要

摘要

提出Grad-CAM，可为基于卷积神经网络的模型的决策生成“视觉解释”，从而使其更加透明和可解释
使用梯度来生成粗略的定位图，突出显示了图像中用于预测的重要区域。
Grad-CAM适用于各种CNN模型系列，无需进行架构更改或重新训练。
Guided Grad-CAM，将Grad-CAM和细粒度视觉结合生成高分辨率类区别性可视化。
通过Grad CAM识别重要神经元并将其与神经元名称结合的方法，为模型决策提供文本解释。
研究衡量Grad-CAM的解释是否帮助用户建立对来自深层网络预测的适当信任，并表明Grad-CAM帮助未训练的用户成功地从较弱的网络中中识别出“更强”的深层网络，即使两者做出相同的预测。

1 引言

CNN缺乏可分解性，无法直接理解为独立组件。可解释性很重要。通常要在准确性和简洁性或可解释性之间进行权衡。本文方法是CAM的推广，适用于各类CNN模型。

图像分类模型中，用于证明任何目标类别合理的“良好”视觉解释应是区分类别（在图像中定位该类别）和高分辨率（捕获细粒度细节）。像素空间梯度可视化具有高分辨率，突出显示了图像中的细粒度细节，但没有类别差异。而诸如CAM或grad-CAM之类的定位方法具有高度的类别区分。
为了结合两个方面的优势，可以将现有的像素空间渐变可视化与Grad-CAM融合，以创建高分辨率和区分类别的Guided Grad-CAM可视化。结果是，即使图像包含多个可能的概念，也可以在高分辨率细节中可视化对应于任何感兴趣决策的图像重要区域。

本文贡献：

Grad-CAM，一种区分类别的定位技术，该技术可以为任何基于CNN的网络生成直观的解释，而无需更改架构或进行重新培训。
我们将Grad-CAM应用于现有的性能最高的分类、字幕和VQA模型。
展示了可解释的Grad CAM可视化如何通过发现数据集中的偏差来帮助诊断故障模式的概念证明。
介绍了用于图像分类和VQA的ResNets的Grad-CAM可视化效果
使用来自Grad-CAM的神经元重要性和神经元名称，并获得模型决策的文字解释。
Guided Grad-CAM的指导性解释是区分性的，不仅帮助人类建立信任，而且还帮助未受过训练的用户成功地从“较弱”的网络中识别出“更强的”网络，即使两者做出相同的预测

2 相关研究

相关研究有：CNN可视化、模型信任评估、对齐基于梯度的重要性、弱监督定位。

CAM的一个缺点是它要求特征图直接位于softmax层之前，因此仅适用于在预测之前立即对卷积图执行全局平均池化的特定类型的CNN架构（即，conv特征图→全局平均池化→softmax层）。与某些任务上的通用网络相比，此类体系结构的精度可能较低。

本文介绍了一种使用梯度信号组合特征图的方法，无需对网络结构中做修改。可以应用于基于CNN的现成架构。 对于全卷积架构，CAM是Grad-CAM的特例。

本文方法可以一次性实现定位，只需要每个图像一次前向传播和部分反向通过，因此通常效率要高一个数量级。

3 方法论

CNN中的深层表示代表了高级视觉结构。卷积层会自然保持空间信息，因此最后的卷积层在高级语义和详细的空间信息之间具有最佳的承诺。这些层中的神经元在图像中寻找特定于语义类的信息。Grad-CAM使用最后卷积层输入的梯度信息为每个神经元分配重要性，以进行特定的关注决策。

以分类为例，下面是解释：

3.1 Grad-CAM泛化CAM

直到在可视化期间标准化的比例常数 $\frac{1}{Z}$ 为止， $w^c_k$ 的表达式都与Grad-CAM使用的 $\alpha^c_k$

最低0.47元/天解锁文章

9 条评论

MingpengLiu 2022.01.13
老哥，语义分割的热力图，没法做吗？？看了好多代码都是分类的。我感觉最重要的一点，就是如何求梯度

正在学习的浅语 2021.06.11
请问一下语义分割的内容可以用这个做可视化吗
- 正在学习的浅语回复正在学习的浅语 2021.06.11
  我刚刚试了一下，貌似确实不太行
- Z字君回复正在学习的浅语 2021.06.11
  我不是做语义分割的，但我觉得用CAM图做语义分割可视化不太行，CAM只是显示卷积特征图的响应程度

Z字君 2021.05.20
路径不要有中文，可能会出错

Z字君 2021.05.09
descending=True

令狐志超 2021.05.02
52行报错unsupported operand type(s) for *: 'float' and 'NoneType'，请问有法子解决吗
- Z字君回复令狐志超 2021.05.02
  没有复制错吗，应该是没有问题的
- 令狐志超回复令狐志超 2021.05.02
  说错了50行