可解释神经网络技术详解
1. 泰勒型分解
对于一般的可微预测器 $f$,实现如式 (4.1) 那样的分解的一种替代方法是一阶泰勒近似:
[f(x) \approx f(x_0) + Df(x_0)(x - x_0) = f(x_0) + \sum_{d = 1}^{V} \frac{\partial f}{\partial x_d}\big| {x_0}(x_d - x {0d})]
在这个设定中,泰勒基点 $x_0$ 的选择是一个自由参数。在分类问题中,我们关注的是找出每个像素相对于预测最大不确定状态(由 $f(x_0) = 0$ 的点集给出)的贡献,因为 $f(x) > 0$ 表示学习到的结构存在,$f(x) < 0$ 表示不存在。所以,$x_0$ 应选为预测器 $f$ 的根,这样上述方程简化为:
[f(x) \approx \sum_{d = 1}^{V} \frac{\partial f}{\partial x_d}\big| {x_0}(x_d - x {0d})\quad \text{使得} \quad f(x_0) = 0]
像素级分解在泰勒级数之外对预测点 $x$ 存在非线性依赖,因为需要找到一个接近的根点 $x_0$。所以,整个像素级分解不是线性算法,而是局部线性算法,因为根点 $x_0$ 依赖于预测点 $x$。
2. 多层神经网络的像素级分解
多层网络的像素级分解:多层神经网络由一组相互连接的神经元按层结构组织而成,它们相互组合定义了一个数学函数,将第一层神经元(输入)映射到最后一层神经元(输出)。我们用 $x_i$ 表示每个神经元,$i$ 是神经元的索引。按惯
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



