李宏毅老师课程：Explainable ML_why we need explain ml-优快云博客

本文链接：https://blog.youkuaiyun.com/APythonC/article/details/108149209

探讨了为何需要可解释的机器学习，介绍了模型诊断的重要性，对比了可解释性与强大的模型，如决策树。深入讲解了局部解释方法，包括基本概念、梯度方法的局限性及攻击解释，以及全局解释策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

可解释的ML

Introduction
Why we need Explainable ML?
- Interpretable v.s. Powerful
Local Explanation
Global Explanation
- Activation Minimization (review)
- Constraint from Generator
Using a model to explain another
- Local Interpretable Model-Agnostic Explanations (LIME)
- Decision Tree

Introduction

要求机器不仅要告诉我们结果是cat，还要告诉我们为什么
在这里插入图片描述

Why we need Explainable ML?

我们不仅需要机器结果的精确度，还需要进行模型诊断，看机器学习得怎么样；有的任务精确度很高，但实际上机器什么都没学到

有模型诊断后，我们就可以根据模型诊断的结果再来调整我们的模型

Interpretable v.s. Powerful

在这里插入图片描述
决策树可以interpretable，也是比较powerful的

但当分支特别多的时候，决策树的表现也会很差
在这里插入图片描述

Local Explanation

Basic Idea

对于输入的x，我们将其分成各个components，每个component由一个像素，或者一小块组成

我们现在的目标是知道每个component对making the decision的重要性有多少，那么我们可以通过remove或者modify其中一个component的值，看此时的decision会有什么变化
在这里插入图片描述
把灰色方块放到图像中，覆盖图像的一小部分；如果我们把灰色方块放到下图中的红色区域，那么对解释的结果影响不大，第一幅图还是一只狗

还有另一种方法

在上图中，下半部分由3幅图saliency map，亮度越大，绝对值就越大，亮度越大的地方就表示该pixel对结果的影响越大

Limitation of Gradient based Approaches

在这里插入图片描述

Attack Interpretation

在这里插入图片描述

Global Explanation

Activation Minimization (review)

在这里插入图片描述
之前我们的目标是找到一个image，使得输出的y达到最大值；现在我们的目标不仅是找到x使输出y达到最大值，还需要把image变得更像是一个digit，不像左边那个图，几乎全部的像素点都是白色，右边的图只有和输出的digit相关的pixel才是白色

这里我们通过加入了一个新的限制 $R (x)$ 来实现，可以表示图像和digit的相似度
在这里插入图片描述

Constraint from Generator

如下图所示，我们输入一个低维的vector z到generator里面，输出Image x；

现在我们将生成的Image x再输入Image classifier，输出分类结果 $y_i$ ，那么我们现在的目标就是找到 $z^*$ ，使得属于那个类别的可能性 $y_i$ 最大

找到最好的 $z^*$ ，再输入Generator，得出 $x^*$ ，产生一个好的Image
在这里插入图片描述
结果展示。现在你问机器蚂蚁长什么样子呢？机器就会给你画一堆蚂蚁的图片出来，再放到classifier里面，得出分类结果到底是火山还是蚂蚁

Using a model to explain another

现在我们使用一个interpretable model来模仿另外一个uninterpretable model；下图中的Black Box为uninterpretable model，比如Neural Network，蓝色方框是一个interpretable model，比如Linear model；现在我们的目标是使用相同的输入，使linear model和Neural Network有相近的输出
在这里插入图片描述
实际上并不能使用linear model来模拟整个neural network，但可以用来模拟其中一个local region

Local Interpretable Model-Agnostic Explanations (LIME)

下图中input为x，output为y，都是一维的，表示Black Box中x和y的关系，由于我们并不能用linear model来模拟整个neural network，但可以用来模拟其中一个local region

首先给出要explain的point，代入black box里面
在第三个蓝色point（我们想要模拟的区域）周围sample附近的point，nearby的区域不同，结果也会不同
使用linear model来模拟neural network在这个区域的行为
得知了该区域的linear model之后，我们就可以知道在该区域x和y的关系，即x越大，y越小，也就interpret了原来的neural network在这部分区域的行为

Decision Tree

如果我们用不限制深度的decision tree，那么我们就可以使用decision tree来模拟black box（neural network），使两者的输出相近，但decision tree的深度不可能是没有限制的。

我们设neural network的参数为 $\theta$ ，decision tree的参数为 $T_\theta$ ，使用 $O(T_\theta)$ 来表示 $T_\theta$ 的复杂度，复杂度可以用 $T_\theta$ 的深度来表示，也可以用neural的个数来表示；现在我们的目标不仅是使两者输出相近，还需要使 $O(T_\theta)$ 的值最小化
在这里插入图片描述
使 $O(T_\theta)$ 的值最小化的方法如下图所示

本文图片来自李宏毅老师课程PPT，文字是对李宏毅老师上课内容的笔记或者原话复述，在此感谢李宏毅老师的教导。