本文是LLM系列文章,针对《Evaluating Interventional Reasoning Capabilities of Large Language Models》的翻译。
摘要
许多决策任务需要估计干预措施对系统不同部分的因果影响。随着从业者考虑使用大型语言模型(LLM)来自动化决策,研究它们的因果推理能力变得至关重要。最近的一项工作评估了LLM检索常识因果事实的能力,但这些评估并没有充分评估LLM如何推理干预措施。受干预在因果推理中的作用的启发,在本文中,我们进行了实证分析,以评估LLM是否能够准确地更新他们对数据生成过程的知识,以应对干预。我们创建了跨越不同因果图(如混淆、中介)和变量类型的基准,并能够研究基于干预的推理。这些基准测试使我们能够分离LLM准确预测因记忆事实或找到其他捷径而导致的变化的能力。我们对四种LLM的分析强调,虽然GPT4模型在预测干预效果方面显示出有希望的准确性,但它们对提示中的干扰因素仍然很敏感。