通过语义归因识别输入特征的影响来表征场景识别模型
1. 引言
近年来,卷积神经网络(CNNs)的应用迅速普及。它不仅具有强大的判别和生成能力,还能借助迁移学习等策略,在预训练模型的基础上进行特定任务的微调。然而,这种方式在继承模型潜力的同时,也会引入一些偏差。为了检测这些偏差、预测模型在实际应用中的表现,并设计合适的训练方法,我们需要对模型的决策进行解释,因此模型可解释性成为了一个备受关注的研究领域。
2. 模型可解释性
在模型可解释性方面,我们不能仅仅通过全局准确率或学习进度来衡量模型的性能,还需要对模型学习到的概念进行定性分析。常见的方法包括:
- 聚类表示 :通过对模型最后一层提取的特征进行聚类,得到二维或三维的聚类表示,如t - SNE。
- 特征可视化 :旨在生成模型学习或编码知识的可视化表示,可以针对单个神经元、完整层、特定通道或任意神经元组进行优化。
- 归因方法 :主要分析输入数据,通过识别导致模型决策的输入图像特征来表征CNN的响应。常见的归因方法可大致分为四类:基于反向传播的方法、基于扰动的方法、基于近似的方法和中间神经元激活可视化方法。
3. 基于扰动的方法
基于扰动的归因方法通过修改输入图像,观察其对模型输出的影响来衡量归因。以往的研究包括:
- Zeiler和Fergus的研究 :用灰色方块系统地覆盖图像的不同部分,得到图像级别的归因图,但这些区域形状粗糙且与物体边界可能不匹配。
- Fon
超级会员免费看
订阅专栏 解锁全文
29

被折叠的 条评论
为什么被折叠?



