模型可解释性方法:LIME与SHAP详解
1. 模型训练与验证机制
在模型训练过程中,我们会从生成器中采样二进制掩码,每个采样的二进制掩码代表一个可能的基本原理。将这些基本原理输入编码器进行预测,得到编码器的结果后,我们就拥有了计算每个基本原理成本函数所需的所有信息,这足以更新编码器的权重。但要更新生成器的权重,我们还需要跟踪每个采样基本原理的对数似然。
在验证和测试阶段,我们不再从生成器中采样二进制掩码,而是根据生成器的概率分布选择最可能的二进制掩码。具体操作是,对于输入测试评论中的每个特征,选择最可能的特征值,这是基于之前的条件独立性假设。
1.1 与注意力机制的类比
生成的二进制掩码可以看作是一种权重向量,用于与构成输入文本评论的特征向量相乘。这里的权重只能是0或1,这与标准注意力机制中的连续加权方案不同,这种方法被视为一种“硬”注意力机制。在这种情况下,硬注意力机制更有意义,因为句子中单词的分数权重很难解释为重要性的衡量标准,而选择文本中的一个严格子集作为评级的解释则更具可解释性。
2. LIME方法
2.1 LIME概述
LIME(Local Interpretable Model-agnostic Explanations)是一种应用于训练好的模型的可解释性技术,它是一种逐示例的可解释性方法,旨在为潜在复杂的模型行为生成简单的局部解释,并且具有模型无关性,即底层模型的结构在应用LIME时并不重要。
2.2 解释器的必要特征
一个好的解释器应具备以下四个特征:
- 可解释性 :解释器应提供
超级会员免费看
订阅专栏 解锁全文
87

被折叠的 条评论
为什么被折叠?



