可解释深度学习AI:自然语言处理中XAI解释方法的比较
在自然语言处理领域,可解释人工智能(XAI)对于理解模型决策背后的原因至关重要。本文将探讨如何生成解释、如何在有无终端用户的情况下评估不同的解释方法,以及如何通过用户研究来优化定量指标以匹配用户偏好。
1. 生成人类注意力的真实标签
为了生成真实标签,一些工作基于人类注意力。这需要领域专家或强大的参考文档。以一个包含法律摘录和标注指南的文档来创建测试数据集,例如,性别歧视通常通过职位名称检测,因此应将其标记为解释。
对于特定实例,我们可以区分“理想解释”(即“真实标签”)和“预期解释”。真实标签解释是基于领域专业知识的输入/输出对加上“理想解释”,适用于一切顺利的情况。如果要训练模型给出这些解释,可将其作为训练数据集。
当分类器给出期望的输出时,其解释与真实标签匹配。但当模型输出与预期标签不同时,“理想解释”可能无法反映模型的行为,这时就需要“预期解释”。可以通过询问用户(领域专家、模型专家)或让领域专家验证模型结果并观察他们的注意力焦点来获得。
2. 无终端用户的评估
在没有领域专家用户的情况下,我们可以通过指标来比较解释方法。这里比较两种方法:锚点(anchors)和注意力(attention),并使用阈值 t 过滤注意力解释,本节仅考虑 t = 0.15 的解释。
我们将问题分为两个问题:
- 问题一:这个解释是否接近理想解释?
使用简单的指标 IOU(交并比)以及其他已知指标(如准确率、F1 分数等)来比较真实标签和生成的解释。对于有真实标签的数据集(如 LEGO 数据集),可
超级会员免费看
订阅专栏 解锁全文
94

被折叠的 条评论
为什么被折叠?



