作者: 19届 lz
论文:《Improved Visual Explanations for Deep Convolutional Networks》
问题:
虽然 Grad-CAM 等基于梯度的方法生成的可视化为 CNN 模型所做的预测提供了解释,并提供了预测类的细粒度细节,但这些方法有局限性
例如,当定位多个出现的同一类对象时
此外,对于单个对象图像,Grad-CAM 热图通常不能完整地捕获整个对象
贡献:
虽然存在几种可视化 CNN 决策的方法,即反卷积、引导反向传播、CAM 和 Grad-CAM,但可视化质量的评估主要通过人工评估或一些辅助指标(如关于边界框的定位误差来完成)。这不需要与负责网络决策的实际因素相关联。我们在这项工作中提出了新的指标来(客观地)评估所提出的解释对基础模型的可信度,可视化是否与决策直接相关。
我们展示了 Grad-CAM++ 在其他任务(除了识别之外)中的有效性——特别是图像字幕和 3D 动作识别。到目前为止,CNN 决策的可视化很大程度上仅限于 2D 图像数据,这是在视频理解中对 3D-CNN 进行视觉解释的极少数努力之一

Grad-CAM++ 在以下方面的成功:
(a)同一类的多次出现(第 1-2 行)
(b)图像中对象的定位能力(第 3-4 行)。注意:与 Grad-CAM 相比,对于第 1 行和第 2 行的输入图像,所有狗在 Grad-CAM++ 和 Guided Grad-CAM++ 显着图中的可视化效果更好。类似地,类的整个区域针对第 3 行和第 4 行的输入图像(蛇的全身和鸟

本文探讨了Grad-CAM++在解决CNN可视化局限性上的进展,特别是在对象定位和多目标识别任务中的优势。它通过提出新的评估指标,客观地增强了解释与模型决策的关联。研究还展示了Grad-CAM++在图像字幕和3D动作识别中的适用性,以及其在扩展到3D视频理解中的潜力。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



