原文:
towardsdatascience.com/ecccos-from-the-black-box-c4bd6ef20263
反事实解释为解释不透明的机器学习(ML)模型提供了一种直观且直接的方法。它们在扰动输入以实现预测输出的预期变化的前提下工作。
如果你之前没有听说过反事实解释,也可以查看我的入门文章:1) 黑盒模型的个体救济和 2) 可解释 AI 的新工具。
通常有多种方式可以实现这一点,换句话说,许多不同的反事实可能产生相同的结果。因此,研究人员面临的一个关键挑战是,首先定义反事实解释的某些理想特性,其次提出实现这些特性的有效方法。
反事实解释最重要的和被研究的特点之一是“可信度”:解释应该看起来对人类来说是真实的。可信度与可操作性、鲁棒性(Artelt 等人,2021 年)和因果有效性(Mahajan、Tan 和 Sharma,2020 年)正相关。为了实现可信度,许多现有方法依赖于代理模型。这很简单,但它也使事情更加复杂:它本质上是将学习数据可信解释的任务从模型本身转移到代理模型。
在我们的 AAAI 2024 论文《通过能量约束一致反事实的忠实模型解释》(ECCCo)中,我们提出,我们不仅应该寻找让我们满意的解释,而应该专注于生成忠实解释模型行为的反事实。事实证明,我们可以仅依靠模型本身,利用基于能量的建模和一致性预测的最近进展来实现忠实性和可信度。我们通过广泛的实证研究支持这一主张,并相信ECCCo为寻求区分可信和不可信模型工具的研究人员和从业者开辟了道路。
这是我们最近与Mojtaba Farmanbar、Arie van Deursen和Cynthia C. S. Liem合著的 AAAI 2024 论文的配套文章。这篇论文对该主题进行了更正式和详细的论述,可在这里找到。本文故意省略了技术细节、数学或代码,旨在提供论文的高层次概述。
选择你的毒药
在可解释人工智能(XAI)领域,存在两个主要的哲学辩论。第一个辩论围绕着 AI 中可解释性的作用:我们是否真的需要解释,如果是的话,为什么?有些人认为,只要模型能产生可靠的成果,我们就不必关心解释模型(Robbins 2019)。人类在其他领域也没有回避这个问题:例如,医生几十年来一直开阿司匹林来缓解疼痛,而并未理解为什么它是一种可靠的药物(London 2019)。
虽然这种推理在某些情况下可能是正确的,但我在代尔夫特理工大学(TU Delft)的同事进行的实验表明,即使有可靠但又不透明的模型辅助,人类做出的决策也不会更好(He, Buijsman, and Gadiraju 2023)。在这些研究中,受试者倾向于忽略 AI 模型,表明他们不信任其决策。此外,可解释性还带来了许多优势,如问责制、控制、可争辩性和揭示因果关系潜力。
间奏曲:为何费心?
如果我们可以盲目地依赖 AI 做出的决策,那么我们为什么还要费心去提出解释呢?我必须承认,直到参加Stefan Buijsman最近在代尔夫特设计价值观研讨会上的演讲之前,我从未认真考虑过这个选项。这次演讲启发了前两段内容。作为代尔夫特理工大学的哲学家和 AI 伦理学家,Stefan 最近的一些研究调查了 AI 模型的因果人类在环解释(Biswas et al. 2022)。我认为他并不认同我们应该盲目信任 AI 模型的观点。事实上,他和他的同事已经表明,即使人类被确保 AI 模型的可靠性,他们也不太可能简单地信任 AI 模型(He, Buijsman, and Gadiraju 2023)。
然而,为什么我们甚至要费心去问这个问题本身就是一个有趣的挑战,尤其是考虑到 XAI 领域迄今为止在产生令人满意且具有实际影响的结果方面仍然面临挑战。与 He, Buijsman, and Gadiraju (2023)相关的许多研究表明,AI 模型的解释要么无法帮助用户,甚至可能误导他们(Mittelstadt, Russell, and Wachter 2019; Alufaisan et al. 2021; Lakkaraju and Bastani 2020)。似乎盲目信任和解释都不是万能的解。
那么,我们朝着可解释人工智能的努力是否徒劳无功?我们应该像 Rudin(2019)所建议的那样,完全停止解释黑盒模型吗?现在在这个领域工作已经超过两年了,我个人对观察到的某些趋势越来越怀疑。特别是,我认为社区过于关注寻找让我们自己满意的解释,而不管模型本身如何(理想情况下是模型无关的,实际上!)这有点像在没有先清洁伤口的情况下贴上创可贴。最好的情况是,对不可信模型的合理解释会给人一种虚假的安全感。最坏的情况是,它们可以被用来操纵和欺骗。本文中展示的 AAAI 论文在很大程度上是源于对这种趋势的怀疑。
尽管如此,我认为 XAI 并非毫无希望。我坚信,只要我们继续部署黑盒模型进行自动化决策,就需要算法上的回溯。虽然我完全支持我们应该始终努力使用尽可能可解释的模型(Rudin 2019)的想法,但我认为在某些情况下这是不可行的,或者使用黑盒模型太方便了。上面提到的阿司匹林例子就是这种情况的一个明显例子。但这个例子很容易进一步扩展,以说明可解释性的重要性。如果阿司匹林的使用被禁止了一小部分人,并且有一个可靠且不透明的模型来决定谁属于这一群体,你会不会想知道为什么?为什么你应该忍受余生都头痛,而其他人则不会?
总的来说,我认为,不管我们是否喜欢,我们确实需要费心。
第二大争论是关于什么构成一个好的解释,因为,关键的是,解释并不是独一无二的:你的头痛是否是由你睡前服用的阿司匹林治愈的,还是睡眠本身?或者两者兼而有之?这种解释的多样性几乎是在反事实解释的背景下自然产生的。除非模型预测目标类别或值的输入特征组合是唯一的,否则总会有不止一个可能的解释。作为一个说明性的例子,考虑图 1 中展示的反事实。所有这些都是根据底层分类器(一个简单的多层感知器)将“九”变成“七”的有效解释。它们在模型在每个情况下都高概率预测目标标签的意义上是有效的。令人不安的部分是,尽管所有生成的反事实都提供了为什么模型预测“七”而不是“九”的有效解释,但它们看起来却非常不同。
那么,我们最信任哪种解释?你会选择哪种解释向观众解释分类器如何决定预测哪个数字?可以说,最右侧的反事实看起来最像“7”,所以我愿意打赌大多数人会选择这个。毕竟它是有效的,看起来也很合理,而其他两个反事实可能会引起更爱提问的观众成员的尴尬问题。无论如何,我之前提到,更合理的解释往往也更具可操作性和鲁棒性,所以这似乎是公平的。由REVISE(Joshi 等人,2019 年)产生的反事实是我们将选择的——抛弃其余部分,继续前进。我们只需要合理性!
我是在夸张,但我确实认为作为一个研究反事实解释的研究者群体,我们已经如此沉迷于追求几个理想目标,以至于我们忘记了我们最终的业务是解释模型。我们的主要任务是设计帮助我们理解模型为何预测特定结果的工具。如果存在大量其他不符合这些理想目标的有效解释,那么一个合理、可操作、稀疏、因果有效的解释在获得这种理解方面有多有用呢?仅仅因为我们找到了一个合理的反事实,我们就显著提高了对图 1 中底层分类器的理解,并因此对模型建立了更高的信任度吗?
在我看来,我们绝对没有。我会争辩说,一个有效且合理的解释的存在仅仅是为了让我们确信模型并非对数据中的有意义表示一无所知。但是,只要模型认为完全不合理反事实也是有效的,仅依赖于合理反事实的子集可能会导致对不可信模型的不当信任感。这就是为什么我们在论文中主张,解释应该首先忠实,其次合理。
忠实优先,合理其次
为了导航忠实性和合理性之间的相互作用,我们提出了一种生成与模型关于数据所学习内容一致的反事实的方法。通过这样做,我们也可以实现合理性,但前提是模型已经学习到了一些有意义的东西。
忠实的反事实
当询问什么是“与模型关于数据所学习内容一致”时,我们本质上是在询问模型在给定目标输出时输入数据的后验条件分布。结果证明,我们可以使用与基于能量的建模相关的想法来近似该分布。特别是,我们可以使用一种称为随机梯度朗之万动力学(SGLD)的方法来从模型的后验条件分布中进行采样(Welling 和 Teh,2011 年)。
在这里不深入细节,其想法是使用模型的能量函数来指导采样过程。能量函数是一个标量函数,它为输入数据的每个可能配置分配一个值。能量越低,对应配置的可能性就越高。这是一个强大的工具:例如,Grathwohl 等人(2020)使用 SGLD 以这种方式训练混合模型——联合能量模型(JEM),这些模型被训练用于分类和生成数据。
图 2 说明了这个概念。它显示了从简单 JEM(基于线性可分数据训练)的后验分布中抽取的样本(黄色星星)。轮廓显示了学习到的条件分布的核密度估计(KDE)。尽管在这种情况下后验似乎太尖锐了,但学习到的条件分布总体上与数据一致(至少是模态)。
图 2 还显示了从橙色类别到蓝色类别的一个单一反事实路径。在这里,我依赖于 Wachter、Mittelstadt 和 Russell(2017)提出的基线方法,只对反事实与原始输入之间的距离施加了小的惩罚。一个真正忠实于事实的反事实,正如我们在论文中定义的那样,是我们预期可以从学习到的条件分布中抽取的(以高概率)。基于这个概念,我们不会将图 2 中的反事实描述为忠实,但它也不是太偏离。
很容易看出,其他期望可能与忠实度相冲突。例如,如果我更多地惩罚了反事实与原始输入之间的距离,那么反事实的成本会更低,但忠实度也会降低。这种在不同期望之间的权衡是我们总是在反事实解释的背景下需要谨慎处理的。正如我们接下来将要看到的,同样的情况也适用于可能性,但方式不同。
合理的反事实
如果你已经跟随着之前的讨论,那么你已经理解了我们论文中最难理解的概念。可能性可以像我们对忠实度所做的那样定义,但它更为直接。在我们的论文中,我们广泛地将合理反事实定义为在目标域中与观察数据不可区分的那些。我们在讨论图 1 中的反事实图像时已经提到了这一点。
图 3 说明了与图 2 中相同的 JEM 的概念。图 3 中的 KDE 显示了基于观察数据的条件分布。反事实路径与图 2 中的相同。在这种情况下,反事实是合理的,因为它在目标域中与观察数据不易区分。
观察图 2 和图 3,可以明显看出忠实性和可信性之间的相互作用不必一定是权衡。在这种情况下,反事实既不太不忠实,也不太不可信。这是因为学习到的条件分布与观察到的数据分布大致一致。
我们的方法:ECCCo
现在我们已经介绍了论文中的两个主要概念,我们可以继续介绍我们提出的生成忠实反事实的方法:ECCCo。正如论文标题所暗示的,ECCCo 是 _E_nergy- _C_onstrained _C_onformal _Co_unterfactuals 的缩写。我们借鉴了基于能量的建模和一致性预测的思想,特别是来自 Grathwohl et al. (2020) 和 Stutz et al. (2022) 的思想。我们提出的反事实生成过程几乎没有开销,并且广泛适用于任何可以使用随机梯度下降训练的模型。技术细节可以在论文中找到。现在,让我们关注一下高级概念。
图 4 比较了 Wachter(Wachter, Mittelstadt, and Russell 2017)生成的反事实路径与 ECCCo 生成的路径,其中我们使用消融法移除了能量约束 – ECCCo (no EBM) – 和一致性预测组件 – ECCCo (no CP)。在这种情况下,Wachter 生成的反事实既不忠实也不可信。然而,它确实最小化了反事实与原始输入之间的距离。
由 ECCCo (no EBM) 生成的反事实位于蓝色类别的更深处,并在其到达最终目的地的路径上避开了决策边界附近的点。这是因为 ECCCo (no EBM) 包含一个预测不确定性的惩罚项,该惩罚项在决策边界附近较高。直观上,我们预计在反事实搜索中避免高预测不确定性的区域应该有助于可信度(Schut et al. 2021)。在这种情况下,最终的反事实既不比 Wachter 生成的反事实更忠实,也不比其更可信。但在我们的实验中,我们通常发现仅惩罚预测不确定性可以帮助生成更忠实和可信的反事实。
由 ECCCo (no CP) 生成的反事实比由 Wachter 和 ECCCo (no EBM) 生成的反事实更忠实。这是因为能量约束产生的反事实与学习到的条件分布更为一致(如图 2 所示)。由于模型已经从数据中学习到一些有意义的信息,因此在这种情况下,反事实也比 Wachter 和 ECCCo (no EBM) 生成的反事实更可信。
由 ECCCo 生成的反事实路径结合了能量约束和一致性预测组件的优点。它避开了高预测不确定性的区域,并最终到达一个与学习到的条件分布一致的位置。
结果
在论文中,我们展示了涉及来自不同领域和多种模型的八个数据集的大量实证研究结果。我们将 ECCCo 与最先进的反事实生成器进行了比较,并表明它在忠实度方面始终优于这些生成器,并且通常实现了最高的合理性程度。在这里,我们将突出 MNIST 数据集的一些可视化结果。
图 5 展示了在 MNIST 数据集上使用不同反事实生成器生成的反事实。在这个例子中,目标是生成一个针对事实“三”的反事实,属于类别“五”。ECCCo+ 生成器是 ECCCo 的一个变体,它在由前几个主成分构成的空间中进行梯度搜索。这降低了计算成本,并且通常有助于提高合理性,有时会以忠实度的一小部分损失为代价。ECCCo 和 ECCCo+ 生成的反事实在可见性上比其他生成器生成的反事实更合理。在论文中,我们使用我们提出的针对合理性和忠实度的自定义指标来量化这一点。
我们还发现,ECCCo 生成的反事实在这个情况下更为忠实。其底层模型是一个 LeNet-5 卷积神经网络(LeCun 等人,1998 年)。即便在今天,卷积神经网络仍然是图像分类中最受欢迎的神经网络架构之一。与图 1 中使用的简单多层感知器(MLP)相比,LeNet-5 模型要复杂一些,它能够从数据中提取更多有意义的表示,这并不令人意外。
更普遍地说,我们发现 ECCCo 特别擅长为那些我们预期会学习到更多有意义数据表示的模型生成合理的反事实。这与我们的主张一致,即 ECCCo 生成忠实反事实。图 5 展示了将 ECCCo 应用于图 1 中相同的“九”事实,从左到右和从上到下展示了不同模型的结果:(a)一个 MLP,(b)一个 MLP 的深度集成,(c)一个 JEM,以及(d)一个 JEM 的深度集成。随着我们对模型复杂性和训练的严格程度提高,生成的反事实的合理性从左到右和从上到下逐渐提高:深度集成可以帮助捕捉预测不确定性,而联合能量建模明确关注在数据中学习有意义的表示。
我们认为,一般来说,这是一个反事实解释器的理想属性,因为它有助于区分可信和不可信的模型。图 6 中(a)的 MLP 生成的反事实是粗糙的,整体上不太合理。但这正是由于 MLP 并不太可信:它对非有意义的输入扰动很敏感。我们认为,解释应该反映这些模型类型的缺点,而不是隐藏它们。
结论
本帖简要介绍了我们 2024 年 AAAI 论文的概述,该论文介绍了ECCCo:通过能量约束的符合反事实生成忠实模型解释的新方法。本帖涵盖了论文的一些主要观点:
-
我们认为,解释首先应该是忠实的,其次是可信的。
-
我们表明,ECCCo 在忠实度和可信度方面始终优于最先进的反事实生成器,并且经常达到最高的可信度。
-
我们相信,ECCCo 为寻求区分可信模型与不可信模型工具的研究人员和从业者开辟了道路。
软件
论文中实验的代码可在 GitHub 上找到:github.com/pat-alt/ECCCo.jl. 该仓库包含在 SLURM 集群上运行实验的工作脚本,以及 ECCCo.jl 包的源代码。该包是用 Julia 编写的,并建立在我们的CounterfactualExplanations.jl包之上,该包最终将吸收 ECCCo.jl 的功能。
参考文献
Alufaisan, Yasmeen, Laura R Marusich, Jonathan Z Bakdash, Yan Zhou, 和 Murat Kantarcioglu. 2021. “Does Explainable Artificial Intelligence Improve Human Decision-Making?” In Proceedings of the AAAI Conference on Artificial Intelligence, 35:6618–26. 8.
Artelt, André, Valerie Vaquet, Riza Velioglu, Fabian Hinder, Johannes Brinkrolf, Malte Schilling, 和 Barbara Hammer. 2021. “Evaluating Robustness of Counterfactual Explanations.” In 2021 IEEE Symposium Series on Computational Intelligence (SSCI), 01–09. IEEE.
Biswas, Shreyan, Lorenzo Corti, Stefan Buijsman, 和 Jie Yang. 2022. “CHIME: Causal Human-in-the-Loop Model Explanations.” In Proceedings of the AAAI Conference on Human Computation and Crowdsourcing, 10:27–39. 1.
Grathwohl, Will, Kuan-Chieh Wang, Joern-Henrik Jacobsen, David Duvenaud, Mohammad Norouzi, 和 Kevin Swersky. 2020. “Your Classifier Is Secretly an Energy Based Model and You Should Treat It Like One.” In International Conference on Learning Representations.
He, Gaole, Stefan Buijsman, 和 Ujwal Gadiraju. 2023. “How Stated Accuracy of an AI System and Analogies to Explain Accuracy Affect Human Reliance on the System.” Proc. ACM Hum.-Comput. Interact. 7 (CSCW2). doi.org/10.1145/3610067.
Joshi, Shalmali, Oluwasanmi Koyejo, Warut Vijitbenjaronk, Been Kim, 和 Joydeep Ghosh. 2019. “Towards Realistic Individual Recourse and Actionable Explanations in Black-Box Decision Making Systems.” arxiv.org/abs/1907.09615.
Lakkaraju, Himabindu, 和 Osbert Bastani. 2020. “How Do I Fool You?” Manipulating User Trust via Misleading Black Box Explanations. “In Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society , 79–85.”
LeCun, Yann, Léon Bottou, Yoshua Bengio, 和 Patrick Haffner. 1998. “将基于梯度的学习方法应用于文档识别.” IEEE 汇刊 86 (11): 2278–2324.
London, Alex John. 2019. “人工智能和黑盒医疗决策:准确性 versus 可解释性.” 哈斯廷斯中心报告 49 (1): 15–21.
Mahajan, Divyat, Chenhao Tan, 和 Amit Sharma. 2020. “在机器学习分类器的反事实解释中保留因果约束.” arxiv.org/abs/1912.03277.
Mittelstadt, Brent, Chris Russell, 和 Sandra Wachter. 2019. “在人工智能中解释解释.” 在 公平、问责和透明度会议论文集 中, 第 279–88 页. doi.org/10.1145/3287560.3287574.
Robbins, Scott. 2019. “一个有陷阱的误导性原则:人工智能的可解释性.” 心智与机器 29 (4): 495–514.
Rudin, Cynthia. 2019. “停止解释高风险决策中的黑盒机器学习模型,而使用可解释的模型.” 自然机器智能 1 (5): 206–15. doi.org/10.1038/s42256-019-0048-x.
Schut, Lisa, Oscar Key, Rory Mc Grath, Luca Costabello, Bogdan Sacaleanu, Yarin Gal, 等人. 2021. “通过隐式最小化认知和随机不确定性生成可解释的反事实解释.” 在 国际人工智能与统计会议 中, 第 1756–64 页. PMLR.
Stutz, David, Krishnamurthy, Dvijotham, Ali Taylan Cemgil, 和 Arnaud Doucet. 2022. “学习最优一致分类器.” arxiv.org/abs/2110.09192.
Wachter, Sandra, Brent Mittelstadt, 和 Chris Russell. 2017. “不打开黑盒的反事实解释:自动化决策和 GDPR.” 哈佛法律与技术杂志 31: 841. doi.org/10.2139/ssrn.3063289.
Welling, Max, 和 Yee W Teh. 2011. “通过随机梯度朗之万动力学进行贝叶斯学习.” 在 第 28 届国际机器学习会议(ICML-11)论文集 中, 第 681–88 页. Citeseer.
最初发布于 www.paltmeyer.com 2024 年 2 月 8 日.
1816

被折叠的 条评论
为什么被折叠?



