模型可解释性与记忆增强神经网络技术解析
1. 模型可解释性方法概述
模型可解释性旨在解释模型行为,然而并非所有模型都具有天然的可解释性,即使那些看似可解释的模型,也可能只是表面如此。例如,普通线性回归从设计上看似乎很容易解释,但特征之间的相关性可能会使原本清晰的解释变得模糊。
可解释性方法主要分为两类:
- 内置可解释性方法 :如提取式合理化方法,这类方法是在模型构建过程中就考虑了可解释性。
- 事后可解释性方法 :像 LIME 和 SHAP。SHAP 值通过定义加性归因框架,统一了多种现有的可解释性方法,并证明了在该框架内存在满足三个理想属性的唯一最优解释器。其损失函数如下:
- $\omega g = 0$
- $\pi_{x’ z’} = \frac{M - 1}{
{M \choose z’} * z’ * (M - z’)}$
- $L(f, g, \pi) = \sum_{z’ \in Z} (f(h_x(z’)) - g(z’))^2 * \pi_{x’ z’}$
可以使用加权最小二乘法优化该损失函数,以获得唯一的最优 $g$。这里的核函数与原始 LIME 论文中提出的核函数在解释上有所不同,SHAP 核函数是对称的,其值甚至不依赖于 $x’$。
不同领域适用的可解释性方法也有所不同,例如基于梯度的方法在图像分类中可能很有用,但在语言问题中可能不太适用。
2. 记忆增强神经网络的基础理论
2.1 RNN 的潜力与局限
循环神经网络(RNN)在解决复
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



