提升深度卷积网络可解释性Grad-CAM++(1): Improved Visual Explanations for Deep Convolutional Networks_grad-cam++:improved visual explanations for deep c-优快云博客

本文探讨了Grad-CAM++在解决CNN可视化局限性上的进展，特别是在对象定位和多目标识别任务中的优势。它通过提出新的评估指标，客观地增强了解释与模型决策的关联。研究还展示了Grad-CAM++在图像字幕和3D动作识别中的适用性，以及其在扩展到3D视频理解中的潜力。

作者： 19届 lz

论文：《Improved Visual Explanations for Deep Convolutional Networks》

问题:

虽然 Grad-CAM 等基于梯度的方法生成的可视化为 CNN 模型所做的预测提供了解释，并提供了预测类的细粒度细节，但这些方法有局限性
例如，当定位多个出现的同一类对象时
此外，对于单个对象图像，Grad-CAM 热图通常不能完整地捕获整个对象

贡献:

虽然存在几种可视化 CNN 决策的方法，即反卷积、引导反向传播、CAM 和 Grad-CAM，但可视化质量的评估主要通过人工评估或一些辅助指标（如关于边界框的定位误差来完成)。这不需要与负责网络决策的实际因素相关联。我们在这项工作中提出了新的指标来（客观地）评估所提出的解释对基础模型的可信度，可视化是否与决策直接相关。
我们展示了 Grad-CAM++ 在其他任务（除了识别之外）中的有效性——特别是图像字幕和 3D 动作识别。到目前为止，CNN 决策的可视化很大程度上仅限于 2D 图像数据，这是在视频理解中对 3D-CNN 进行视觉解释的极少数努力之一

在这里插入图片描述
Grad-CAM++ 在以下方面的成功：
（a）同一类的多次出现（第 1-2 行）
（b）图像中对象的定位能力（第 3-4 行）。注意：与 Grad-CAM 相比，对于第 1 行和第 2 行的输入图像，所有狗在 Grad-CAM++ 和 Guided Grad-CAM++ 显着图中的可视化效果更好。类似地，类的整个区域针对第 3 行和第 4 行的输入图像（蛇的全身和鸟