31、深度架构中的可解释性方法解析

最新推荐文章于 2025-12-15 11:45:10 发布

js777

最新推荐文章于 2025-12-15 11:45:10 发布

阅读量29

点赞数

CC 4.0 BY-SA版权

分类专栏：解码深度学习的黑箱文章标签：深度学习可解释性方法基于案例推理网络

本文链接：https://blog.youkuaiyun.com/js777/article/details/151053768

解码深度学习的黑箱专栏收录该内容

38 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度架构中的可解释性方法解析

1. 特定深度架构中的解释方法

1.1 基于案例推理网络

基于案例推理（Case-based Reasoning）由 Kolodner 在 1992 年提出。该网络允许我们在更通用的潜在空间中评估原型和观测值之间的距离。潜在空间的高效性源于其适应性。在这个网络中，观测值根据其与数据集中原型观测值的相似程度被分配到不同类别。例如，在手写数字识别中，一个特定的观测值被标记为 “3”，是因为网络判断它与训练集中的原型 “3” 相似。

1.2 ProtoNets

Snell 等人在 2017 年引入了 ProtoNets，它通过对许多嵌入的 “支持” 样本取平均值来为每个类别创建一个原型。零样本学习的原型是特征空间中的点，使用 Li 和 Wang 在 2017 年提出的生成概率模型来创建。每个类别只允许有一个原型，并且在这两种情况下，原型不需要具有可解释性，因此它们的表示通常不像自然图像。

1.3 概念白化（Concept Whitening）

概念白化（CW）是一种使图像分类器具有可解释性的方法。要实现 CW，需要将归一化层（如批量归一化层）替换为 CW 层。这使得 CW 成为希望在不牺牲模型性能的情况下使预训练图像分类器更具可解释性的用户的强大工具。CW 大量借鉴了白化变换的工作，因此对 CW 感兴趣的人应该熟悉白化变换的数学原理。在 CW 中，通过自动编码器（AE）生成一个潜在的低维空间，并在此计算到原型的距离。可以使用潜在空间进行距离计算，以确定比像素空间中的 L2 更合适的不相似度度量。

1.4 自解释神经网络（Self-Explaining Neural Network，SENN）

自解释神经网络（SENNs）由 Alvarez - Melis 等人在 2018 年开发，其目的是提供一个简单且局部可解释的模型。这是通过采用正则化方法，通过稀疏正则化来增强多样性，通过原型化提供概念解释，并确保模型在局部表现为线性模型来实现的。SENNs 有三个部分：
1. 输入相关的参数器，用于提供相关性得分。
2. 概念编码器，将输入转换为有限的可解释基本特征集合。
3. 聚合函数，用于聚合得分。

通过在参数 x 上施加鲁棒性损失，整个模型在 h(x) 上局部表现为线性函数，从而为任何给定的预测提供更易于解释的（线性关系）解释。参数器、概念器和聚合器构成了 SENN 模型的骨架。参数器 θ 由人工神经网络（ANN）实现，概念器 h 由自动编码器（AE）实现。这些网络的实际实现可能会有所不同，表格数据由全连接网络表示，图像数据使用卷积神经网络（CNNs）。

SENNs 的设计公式如下：
假设线性模型 (f (x) = \sum_{i} \theta_{i}x_{i} + \theta_{0}) 对于给定的输入特征 (x_{1}, x_{2}, …, x_{n} \in R) 是可解释的。然后，将线性模型的范围扩展，设计一个能够自我解释的神经网络 (f)：
(f (x) = g(\theta(x) {1}h(x) {1}, …, \theta(x) {k}h(x) {k}))

其中，(\theta) 是一个将输入特征转换为相关性得分（或参数）的神经网络。如果 (x) 是输入，(X \to R) 将计算 (x) 的 (k) 个可解释特征表示。(g) 是一个单调增长、完全可加分离的聚合函数，这些特征表示被称为基础概念。

为了确保参数器 (\theta) 作为基础概念 (h(x)) 中线性模型的系数，提出 (\theta) 应受到概念器 (h) 的局部差分约束。通过最小化鲁棒性损失来确保局部差分有界性：
(L_{\theta} = ||\nabla_{x} f (x) - \theta(x)^{T} J_{h_{x}} (x)||)

在训练过程中，最小化损失函数：
(L = L_{y}( f (x), y) + \alpha L_{\theta}( f (x)) + \xi L_{h}(x))

其中，(L_{y}( f (x), y)) 表示分类损失，即模型预测真实标签的能力。(L_{\theta}( f (x))) 是由上述公式提供的鲁棒性损失。(\alpha) 是一个正则化参数，决定了鲁棒性的施加强度，在性能和稳定性之间进行权衡，从而影响 (\theta(x)) 的可解释性。(L_{h}(x)) 表示概念损失，是重建损失和稀疏损失的乘积。(\xi) 是概念损失正则化参数。

1.5 总结

方法	描述
基于案例推理网络	在潜在空间评估原型和观测值距离，根据相似度分类
ProtoNets	对支持样本取平均创建原型，用于零样本学习
概念白化	替换归一化层，利用潜在空间计算距离
自解释神经网络	由参数器、概念编码器和聚合函数组成，通过正则化实现可解释性

下面是 SENN 模型工作流程的 mermaid 流程图：

graph LR
    A[输入数据] --> B[概念编码器]
    B --> C[可解释基本特征]
    A --> D[输入相关参数器]
    D --> E[相关性得分]
    C --> F[聚合函数]
    E --> F
    F --> G[预测结果]

2. 可解释性方法的陷阱

2.1 解释黑盒系统的困境

有人认为试图描述黑盒系统是徒劳的，通过更透明或可解释的模型来诱导网络行为的方法，被批评为与原始系统的设计不符。因为在将黑盒作为神谕并训练透明模型作为解释器时，无法实现与原始模型的绝对保真度，系统的忠实度可能会下降。而且，认为可以以牺牲可解释性为代价来提高准确性的假设是错误的，复杂模型并非实现高准确性所必需，简单模型可能更易于处理。

2.2 鲁棒性问题

Alvarez - Melis 等人在 2018 年对可解释性方法（如 LIME、SHAP 等）应用了鲁棒性指标，鲁棒性衡量的是解释（归因）相对于输入的变化情况，相同的输入 - 输出对应该产生相似的解释。实验表明，基于模型无关扰动的可解释性方法比基于梯度的方法更容易出现不稳定性，但两种方法在鲁棒性指标上大多表现不佳。此外，基于梯度的方法还容易受到对抗攻击，小的随机输入扰动可能会改变特征重要性，导致在不改变预测的情况下产生截然不同的解释。

Yeh 等人在 2019 年开发了敏感性指标，敏感性描述了解释如何随不同信息而变化。结果表明，解释方法的敏感性越低，解释越真实，并且可以使用对抗训练来提高黑盒模型对该属性的敏感性。

2.3 现实中的反例

Brown 等人在 2017 年训练图像分类器时，创建了一个打印标签。当将其粘贴到物体上时，会使物体看起来像烤面包机。与之前的对抗示例方法不同，这种方法不要求对抗图像与原始图像高度相似，而是用一个可以是任意形状的补丁完全替换图像的一部分。该补丁的外观在各种背景图像上进行了优化，并且偶尔会进行重新定位、放大或旋转，最终可以打印出改进后的图像并用于欺骗野外的图像分类器。

2.4 直觉依赖问题

可解释性研究往往过度依赖基于直觉的方法，这可能导致虚幻的进展和错误的结果。研究人员应该从直觉出发，设计和测试明确的、可证伪的假设。虽然直觉对于理解的发展是必要的，直觉方法通常优于非直觉方法，但未经证实的直觉和可解释性研究的其他方面可能会导致误解。可视化在可解释性研究中既有益又有弊，它可以帮助建立理解，但也可能因为不准确而误导研究人员。

2.5 案例研究

2.5.1 特征可视化和网络剖析

网络剖析证明了像 ResNet 或 Inception 这样的设计中包含对特定概念有反应的单元，但像交并比（IoU）这样的指标是不够的，因为多个单元可能对同一概念有反应，而有些单元则没有反应，并且通道并没有完全解耦，不能孤立地分析。进行网络剖析需要以数据集形式存在的像素级概念标签，获取这些数据集需要大量的努力。此外，网络剖析只将人类概念与通道的正激活对齐，而没有与负激活对齐，负激活可能与概念相关，可以通过查看激活的最低分位数来纠正。

可视化工具在可解释性方面是一把双刃剑：
1. 通过探索可以最好地获得理解，可视化工具（如图表）即使不准确，也可能有效地传达主题，让观众获得深刻的理解。
2. 可视化缺乏量化，在深度学习中，看似相同的模型可能因超参数不同而表现出截然不同的行为，没有适当的量化，可视化可能像罗夏墨迹测验一样不可靠。

2.5.2 类激活映射（CAM）

CAM 是一种低维护、高收益的监督方法，它能提供模型正在寻找的最重要特征的概念，并且易于快速实现，是向非技术人员展示卷积神经网络（CNN）工作原理的好方法。然而，CAM 虽然有助于获得最突出方面的总体感觉，但在提供更精细的见解方面存在局限性，它无法捕捉更深层次的复杂语义关系。

2.5.3 梯度作为敏感性映射

一些作者建议需要数学上合理的方法来识别输入图像中的 “关键” 像素。实践中，标签的敏感性映射与标签存在的位置之间似乎存在相关性，但使用原始梯度计算的敏感性映射往往看起来杂乱。CAM 和层相关传播（LRP）的公式是基于启发式给出的，中间步骤不可观察，调整单个权重的值也不容易揭示有意义的模式。

原始梯度可视化中的噪声可能有多种原因，可能是网络行为的真实描述，也可能是原始梯度不是特征值的最佳指标。为了更好地解释网络决策，许多先前的出版物提出了对梯度敏感性映射基本概念的改进，如 LRP、DeepLift 和集成梯度等方法试图评估每个像素的全局重要性，而不是局部敏感性；DeconvNet 和引导反向传播等方法通过在反向传播计算中忽略负值来改变 ReLU 函数的梯度，以更好地揭示导致高级脑回路激活的具体元素。

2.5.4 梯度值与输入图像相乘

一些算法通过将基于梯度的值与实际像素值相乘来生成最终的敏感性映射，从视觉上看，这种乘法往往能提供更简单、更清晰的图像。

2.6 总结

陷阱类型	描述
解释黑盒系统困境	难以实现与原始模型的绝对保真度，忠实度可能下降
鲁棒性问题	基于扰动和梯度的方法大多鲁棒性不佳，易受对抗攻击
现实反例	存在可欺骗图像分类器的打印标签
直觉依赖问题	过度依赖直觉方法可能导致错误结果
特征可视化和网络剖析	指标不够，通道未完全解耦，可视化工具利弊并存
类激活映射	能提供总体概念，但难以提供精细见解
梯度作为敏感性映射	原始梯度计算的映射杂乱，有多种改进方法
梯度值与输入图像相乘	生成更简单清晰的敏感性映射

下面是可解释性方法陷阱的 mermaid 流程图：

graph LR
    A[解释黑盒系统] --> B[忠实度下降]
    C[鲁棒性问题] --> D[方法不稳定]
    C --> E[易受对抗攻击]
    F[现实反例] --> G[欺骗图像分类器]
    H[直觉依赖问题] --> I[错误结果]
    J[案例研究] --> K[特征可视化和网络剖析]
    J --> L[类激活映射]
    J --> M[梯度作为敏感性映射]
    J --> N[梯度值与输入图像相乘]
    K --> O[指标不足]
    K --> P[可视化双刃剑]
    L --> Q[难以提供精细见解]
    M --> R[原始梯度杂乱]
    M --> S[多种改进方法]
    N --> T[生成清晰映射]