《Understanding Black-box Predictions via Influence Functions》笔记

原创已于 2023-09-16 14:30:56 修改 · 561 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #解释性 #协方差 #梯度 #Loewner #正定 #Hessian

于 2023-08-29 15:35:11 首次发布

机器学习同时被 2 个专栏收录

121 篇文章

订阅专栏

数学

38 篇文章

订阅专栏

文章探讨了在训练模型过程中，通过优化和扰动分析，尤其是通过influence函数I_up,loss来衡量训练点对测试点预测的影响。强调了梯度关联的重要性，特别是在非参数自由模型中，如逻辑回归。文章还讨论了Hessian正定性和算子范数在近似Hessian逆中的应用。

[1] 通过升权（ $\S 2.1$ ）、扰动（ $\S 2.2$ ）两种方式研究某个 training point $z = (x, y)$ 对（优化后的）模型参数 $\hat\theta$ 、模型在某个 test point $z_\text{test} = (x_\text{test}, y_\text{test})$ 的 prediction 的影响。

其在 $\S 2.3$ 对比在找与 $z_\text{test}$ 最相关的 z 时，(2) 式提出的影响函数 $I_\text{up,loss}(z,z_\text{test})$ 与（normalised x 后的）欧氏距离 $x^T x_\text{test}$ 的分别。以 logistic regression 为例，算出此时 $I_\text{up,loss}$ 的表达式，提了两点分别：

$\sigma(-y\theta^Tx)$ 一项会使 loss 大的 training point 有更大的 influence。由 loss 的表达式 $L(z,\theta)=\log[1+\exp(-y\theta^Tx)]$ ，loss 更大意味着 $-y\theta^Tx$ 更大，从而 $\sigma(-y\theta^Tx)$ 更大，确实会令 $I_\text{up,loss}$ 的绝对值更大，即有更大的 influence。
$H^{-1}_{\hat\theta}$ 一项的作用，[2,5,6] 没解释，[3,4] 简单翻译一笔带过。看了 [1] 的 talk，还是看回 (2) 式好理解些： $I_\text{up,loss}(z,z_\text{test}) = - \nabla_\theta L(z_\text{test},\hat\theta)^T H^{-1}_{\hat\theta} \nabla_\theta L(z,\hat\theta)$ 先忽略中间的 $H^{-1}_{\hat\theta}$ （也忽略负号，因为是讨论 influence「大小」，不看方向），只看 $\nabla_\theta L(z_\text{test},\hat\theta)^T \nabla_\theta L(z,\hat\theta)$ ，则 (2) 相当于说要找最相关的 z，不是看数据层面的关联（即 $x^T x_\text{test}$ ），因为这里不是 kNN 这种 parameter-free 的模型，training data 是通过影响模型参数 $\theta$ 来影响 test data 的 prediction 的，所以从「梯度关联」（内积）的视角看更准确：梯度反映模型要 fit 此数据要做出的调整，梯度越相关，意味着模型为 fit z 做出的调整对 predict $z_\text{test}$ 越适用。
再考虑整个训练集：如果有其它 $z^{'}$ 带来的梯度跟 $z_\text{test}$ 的梯度也很相关，那 z 就相对没那么重要了，极端情况 $z^{'} = z$ ，那有 z 没 z 都无所谓，所以加上 $H^{-1}_{\hat\theta}$ 来考虑这点，文中

$\nabla_\theta L(z,\hat\theta)$ points in a direction of little variation

「direction」应是指梯度的方向、「variance」指梯度的方差。参考 [7-9]，此时 $H^{-1}_{\hat\theta}$ 应该会相对放大这个梯度内积（联想一维正态分布的情况会比较直观，高维的协方差逆相当于一维时方差放在分母，方差越小整个分式越大），于是数值上 $I_\text{up,loss}(z,z_\text{test})$ 更大；而联系 PCA 中关于 variance 的描述，这应该是表明很少有其它 training points 的梯度方向与 z 的相近，于是 z 对模型的影响（及此影响于 predict $z_\text{test}$ 的适用性）无可替代，所以应当认为 z 对 $z_\text{test}$ 的 influence 更大。

$\S 3$ 的 stochastic estimation 近似 $H^{-1}_{\hat\theta}$ 中，其 Taylor 展开为 $H^{-1}_{\hat\theta} = \sum_{i=0}^\infin (I-H)^i$ ，参考 [10,11]，此展开成立的前提是 $\|I-H\|<1$ （算子范数），后文有说用 $\nabla^2_\theta L(z_i,\hat\theta)$ 作 H 的无偏估计，而同一页的脚注 2 有讲假设 $\forall i, \nabla^2_\theta L(z_i,\hat\theta) \preceq I$ 成立，应该是类似的意思。这在实数域中的类比是 $∣ x ∣ < 1$ 时 $(1-x)^{-1}=\frac{1}{1-x}$ 几何级数展开，见 [10,11]。

$\preceq$ 是偏序的符号，用在向量上是 majorization，但这里是用在矩阵上。经 [12] 评论提醒，应是 Loewner 偏序^[13]，跟矩阵正定有关，相关笔记可见 [14]。下面解释它跟 Neumann 序列^[11]的关系。

由 [10]，要将 $H^{-1}$ 展开成 $\sum_{i=1}^\infin (I-H)^i$ 的形式（即 Neumann 序列），前提是 $\|I-H\|<1$ （算子范数）。有关算子范数及相关知识参考 [15-19]，简单来说，矩阵 A 的算子范数为 $sup_{\|x\|=1} \|Ax\|$ 。易算得单位阵 $I$ 的算子范数为 $sup_{\|x\|=1}\|Ix\| = \sup_{\|x\|=1}\|x\| = 1$ 。由 [14] 的笔记，有 $\prec (或 \preceq) B \Leftrightarrow \forall x \ne 0, \|Ax\| < (或 \leq) \|Bx\|$ 又因为有假设 $\forall i, 0 \prec \nabla^2_\theta L(z_i,\hat\theta) \preceq I$ （[1] 中 $\S2.1$ 有假设 Hessian 正定），故 $\begin{aligned} 0 &\prec H_{\hat\theta} = \frac{1}{n} \sum_{i=1}^n \nabla_\theta^2 L\left(z_i, \hat{\theta}\right) &\preceq I \\ I &\succ I - H_{\hat\theta} &\succeq 0 \end{aligned}$ 所以 $H_{\hat\theta}$ 的算子范数 $\begin{aligned} \|I - H_{\hat\theta}\| &= \sup_{\|x\|=1}\|(I - H_{\hat\theta})x\| \\ & < \sup_{\|x\|=1} \|Ix\| = \sup_{\|x\|=1} \|x\| =1 \end{aligned}$ 满足 [11] Neumann 序列的前提，所以展开成立。