可解释深度学习AI:概念、方法与新进展
1. 可解释深度学习基础概念
在可解释人工智能(XAI)领域,一些方法虽被用于解释模型,但可能未真正触及“模型 - 数据交互”的核心。例如,敏感性分析(Sensitivity Analysis)这类方法,只是可视化模型对输入维度的敏感性,而非解释模型如何使用特征以及特征是否存在于输入中。对于线性模型,这类方法会给出相同的解释(即 (R_i = w_i) ),但对于深度神经网络,由于存在池化层等,情况并非如此。所以,严格来说,这些归因图更应被称为敏感性图。
对于线性模型,可直接对预测结果进行有意义的分解,但对于非线性模型,找到类似合适的定义则更具挑战性。我们可以从非线性模型的泰勒展开式中自然地得到一种分解:
[f (x) \approx \sum_{i=1}^{d} R_i = \sum_{i=1}^{d} [\nabla f (\hat{x})]_i \cdot (x_i - \hat{x}_i) = R_i]
其中 (\hat{x}) 是附近的某个根点。这种解释认为,若一个特征在数据中存在(即与参考值 (\hat{x}_i) 不同),且模型输出对其敏感(即 ([\nabla f (\hat{x})]_i \neq 0) ),则该输入维度是相关的。不过,由于梯度破碎问题和根点选择的困难,这种泰勒展开式不能直接应用于深度神经网络等复杂模型。而深度泰勒分解(Deep Taylor Decomposition)方法克服了这些挑战,为深度神经网络的解释提供了一个流行的理论框架。
2. 解释信号与解释噪声
在某些情况下,简单计算得到的解释可能并非我们真正感兴趣的信号,而是受到其他因素(如数据中的噪声)的影响
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



