提升深度卷积网络可解释性Grad-CAM++(1): Improved Visual Explanations for Deep Convolutional Networks

本文探讨了Grad-CAM++在解决CNN可视化局限性上的进展,特别是在对象定位和多目标识别任务中的优势。它通过提出新的评估指标,客观地增强了解释与模型决策的关联。研究还展示了Grad-CAM++在图像字幕和3D动作识别中的适用性,以及其在扩展到3D视频理解中的潜力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者: 19届 lz

论文:《Improved Visual Explanations for Deep Convolutional Networks》



问题:

虽然 Grad-CAM 等基于梯度的方法生成的可视化为 CNN 模型所做的预测提供了解释,并提供了预测类的细粒度细节,但这些方法有局限性
例如,当定位多个出现的同一类对象时
此外,对于单个对象图像,Grad-CAM 热图通常不能完整地捕获整个对象

贡献:

虽然存在几种可视化 CNN 决策的方法,即反卷积、引导反向传播、CAM 和 Grad-CAM,但可视化质量的评估主要通过人工评估或一些辅助指标(如关于边界框的定位误差来完成)。这不需要与负责网络决策的实际因素相关联。我们在这项工作中提出了新的指标来(客观地)评估所提出的解释对基础模型的可信度,可视化是否与决策直接相关。
我们展示了 Grad-CAM++ 在其他任务(除了识别之外)中的有效性——特别是图像字幕和 3D 动作识别。到目前为止,CNN 决策的可视化很大程度上仅限于 2D 图像数据,这是在视频理解中对 3D-CNN 进行视觉解释的极少数努力之一

在这里插入图片描述
Grad-CAM++ 在以下方面的成功:
(a)同一类的多次出现(第 1-2 行)
(b)图像中对象的定位能力(第 3-4 行)。注意:与 Grad-CAM 相比,对于第 1 行和第 2 行的输入图像,所有狗在 Grad-CAM++ 和 Guided Grad-CAM++ 显着图中的可视化效果更好。类似地,类的整个区域针对第 3 行和第 4 行的输入图像(蛇的全身和鸟的头部/腿)进行本地化。 Grad-CAM 热图仅显示部分覆盖。



相关工作

CAM

在具有 GAP 的 CNN 中,特定类别 c 的最终分类分数 Y c 可以写成其全局平均池化的最后一个卷积层特征图 Ak 的线性组合。
在这里插入图片描述
然后将特定类别的显着图 Lc 中的每个空间位置 (i, j) 计算为:
在这里插入图片描述
Lcij 与特定空间位置 (i, j) 对特定类别 c 的重要性直接相关,因此可以作为网络预测的类别的视觉解释。 CAM 通过使用为给定图像生成的最后一个卷积层的激活图为每个类 c 训练一个线性分类器来估计这些权重。然而,这将其解释能力限制在具有 GAP 倒数第二层的 CNN 上,并且需要在训练初始模型后重新训练多个线性分类器(每个类别一个)。

Grad-CAM

Grad-CAM 旨在解决这些问题。这种方法将特定特征映射 Ak 和 c 类的权重 wck 定义为:
在这里插入图片描述
其中 Z 是一个常数(激活图中的像素数)。因此,Grad-CAM 可以与任何深度 CNN 一起工作,其中最终 Y c 是激活图 Ak 的可微函数,无需任何重新训练或架构修改。为了获得细粒度的像素尺度表示,Grad-CAM 显着性图通过逐点乘法与引导反向传播生成的可视化进行上采样和融合。这种可视化被称为 Guided Grad-CAM。



针对现有方法的不足 Grad-CAM++的改进

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

中南大学苹果实验室

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值