模型可解释问题一向都是一个玄学问题,主要核心问题在于怎么评估一个好的模型解释器。在以往的工作中,图解释性模型往往是取一个边集合,并且将边集合得到的子图预测结果与真实标签做对比然后算一个acc,然而,本文作者则认为如果将解释结果与真实情况对比的话实际上并不是特别靠谱。因此,本文主要提出了几种更贴切于解释性方法的评估数据,包括感染检测,社区检测,负样本评估。
论文地址:https://dl.acm.org/doi/pdf/10.1145/3447548.3467283
Introduction
首先先介绍一下图解释性模型的流程。目前的图解释性模型基本是后验型的,即先有一个训练好的模型,然后用一种解释性方法,去看哪些子结构是可以对结果有突出性贡献的,模型流程图如下:设真实标签描述的边集合是,即需要被解释的边集合,而GNN采用了集合的边做分类预测。此时,解释器应该是去描述这个的集合,而不是直接和其标准标签做对比。
最近的一些解释性工作在设计数据集评估的时候大概率会忽略这些问题,因此这篇文章分析了为什么这些已有评估方法不大行的原因,并且针对这些原因提出了新