思维链不等于可解释性

思维链不等于可解释性

Fazl Barez¹,²,*, Tung-Yu Wu², Iván Arcuschin³, Michael Lan³, Vincent Wang¹,⁴, Noah Siegel⁵,⁶, Nicolas Collignon³, Clement Neo⁷, Isabelle Lee⁸, Alasdair Paren¹, Adel Bibi¹, Robert Trager¹, Damiano Fornasiere⁹, John Yan², Yanai Elazar¹⁰,¹¹, Yoshua Bengio⁹


¹ 牛津大学, ² WhiteBox, ³ 独立研究者, ⁴ Cosmos, ⁵ Google DeepMind, ⁶ UCL, ⁷ NTU, ⁸ USC, ⁹ Mila, ¹⁰ AI2, ¹¹ UW

*通信作者: fazl@robots.ox.ac.uk

预印本,审核中。

摘要

思维链(Chains-of-thought, CoT)允许语言模型在给出最终答案前,先以语言形式表达多步推理的基本原理。尽管这项技术通常能提升任务性能,并给人一种模型推理过程透明的印象,但我们认为,当前 CoT 技术生成的理据对于实现可信的可解释性而言既非必要也非充分。我们通过分析 CoT 的忠实性(faithfulness)——即 CoT 不仅要人类可解释,还要能反映模型真实的底层推理过程,从而支持负责任的使用——综合了以往研究的证据。我们发现,语言化的推理链常常是不忠实的,它们偏离了驱动模型预测的真实隐藏计算,错误地描绘了模型得出结论的方式。尽管如此,CoT 在医学、法律和自动驾驶系统等高风险领域中的应用日益增多——我们对近期 1000 篇以 CoT 为中心的论文进行分析后发现,约有 25% 的论文明确将 CoT 视为一种可解释性技术,其中,高风险领域的论文尤其严重依赖于这种可解释性的论断。基于在可解释性领域的既有工作,我们提出三点建议:(i) 避免在未经额外验证的情况下,将 CoT 视为可解释性的充分条件,但可以继续利用其沟通优势;(ii) 采用严格的方法评估 CoT 对下游决策的忠实性;(iii) 开发因果验证方法(例如,激活补丁、反事实干预、验证器模型),将解释与模型内部机制联系起来。

1 引言

思维链(CoT)使大语言模型(LLMs)能够在得出最终答案前,生成一系列中间推理步骤 [78, 44, 75]。它可以通过明确指示“一步一步思考”,或通过奖励信号、示例隐式地引导模型进行分步推理。这项技术在数学 [48] 和常识推理 [71] 等领域展现了卓越的问题解决能力。

在这里插入图片描述

图 1:论文概览:不忠实的思维链行为(左)、其机制和认知根源(中),以及我们为增强 CoT 忠实性提出的研究路线图(右)。

例如,对于以下数学问题:“一个直角三角形的两条直角边分别为 5 厘米和 12 厘米,它的周长是多少?请在给出最终答案前一步一步思考。” 当被问到这个问题时,模型典型的 CoT 回应可能如下所示:

步骤 1:我需要求出这个直角三角形的周长。周长是所有边长之和。
步骤 2:我知道两条边:5 厘米和 12 厘米。我需要求出第三条边(斜边)。
步骤 3:使用勾股定理:a2+b2=c2a^2 + b^2 = c^2a2+b2=c2
步骤 4:c2=52+122=25+144=169c^2 = 5^2 + 12^2 = 25 + 144 = 169c2=52+122=25+144=169
步骤 5:c=169=13c = \sqrt{169} = 13c=169=13 厘米。
步骤 6:周长 = 5 厘米 + 12 厘米 + 13 厘米 = 30 厘米。
因此,这个直角三角形的周长是 30 厘米。

这种将问题分解为多个步骤的方式,让模型能将大问题拆分为更小、更易处理的子问题 [5],然后将它们组合起来得到最终答案,这通常比不使用 CoT 提示时表现更好 [78]。这些沟通上的好处包括:提供人与 AI 之间的共享语言、支持专家验证、便于调试,以及促进人机协作。

这个看似能揭示模型问题解决过程的窗口,激发了学界对 CoT 为何有效 [44]、如何增强 CoT [76, 82] 及其在模型可解释性中应用 [79] 的研究。然而,尽管 CoT 并未解释模型为何选择特定的推理路径,也未说明其底层机制如何运作,研究人员却过度地使用 CoT 来揭示模型的“想法” [17, 52, 58, 34]。根据我们的估算(详见附录 B),在过去一年中,arXiv 上发表的近 25% (244/1000) 的研究论文,在其模型设计或数据集构建中融入了 CoT,并视其为实现模型可解释性的技术。值得注意的是,这种可解释性主张在高风险领域的采纳率明显更高:38% 的医学 AI 论文 (16/42)、63% 的自动驾驶系统论文 (17/27) 和 25% 的法律 AI 论文 (1/4) 都提出了这一主张——除一篇外,其余均超过 25% 的平均水平。在此背景下,本文旨在建设性地挑战这种可解释性假设,呼吁对模型推理建立更细致的理解和更稳健的解释方法。

不忠实性问题。尽管思维链在直觉上很有吸引力,但越来越多的证据表明,其输出往往不满足这些标准 [75, 4, 5]。CoT 解释经常偏离模型真实的决策过程,因为模型可能使用了未在其推理中表达的捷径或潜在知识 [4, 5]。在这种情况下,CoT 看似合理,实则是一个不可信的解释 [37]。以下是两个典型案例:

  • 提示偏见影响。作为对因果性和完备性的违背,Turpin 等人 [75] 的研究表明,重新排列多项选择题的选项顺序,会导致模型选择不同的答案。

  • 在高达 36% 的案例中,它们的 CoT 解释从未提及这种影响,而是为它们所选择的任何答案进行合理化解释。

  • 静默纠错。作为对健全性的违背,Lanham 等人 [47] 和 Arcuschin 等人 [5] 都记录了模型在中间推理步骤中犯错,但仍能得出正确最终答案的案例,这表明它们使用了未在语言化步骤中揭示的计算路径。

我们的贡献。本文做出三大贡献:(1) 我们综合了各种经验性发现,证明 CoT 的不忠实性并非偶然的异常现象,而是一种具有可识别模式的系统性现象;(2) 我们探讨了导致 CoT 解释偏离内部计算的几个因素,包括 Transformer 架构中的分布式处理及其与人类合理化行为的相似之处,并专门用一节探讨了认知科学和神经科学的观点;(3) 我们识别了不忠实性最普遍发生的特定条件,例如存在提示偏见、复杂的多步推理和预设答案的情况。

图 1 总结了主要问题、我们的洞见以及我们提出的路线图。我们的发现表明,CoT 解释可能会给人一种虚假的透明感,尤其是在高风险环境中,用户很可能信任看似连贯的理据。这导致了对模型输出的错置信心,特别是当解释看似合乎逻辑,却未能反映决策背后的真实原因时。为缓解此问题,我们建议 AI 模型的使用者,尤其是研究人员和开发者,应该 (1) 避免在没有额外验证的情况下,将 CoT 解释视为可解释性的充分证据;(2) 采用严格的方法来测试解释的忠实性;(3) 开发新方法,将 CoT 的沟通优势与因果验证相结合,以提高关键决策中解释的可靠性。

2 CoT 的忠实性要求

将模型推理与人类解决问题的方式进行类比,思维链似乎使模型的推理过程变得透明,并提供了一种可解释性。然而,将这种可解释的表象与模型的实际推理混为一谈存在诸多风险,尤其是在决策透明度至关重要的高风险领域,错误的 CoT 解释可能会带来严重后果。在医疗诊断中,一个有缺陷的 CoT 可能会为一个建议进行合理化解释,却忽略了模型实际上依赖了虚假的关联 [28, 29]。在法律应用中,模型可能生成看似合理的法律推理,却掩盖了从训练数据中学到的偏见。在自动驾驶系统中,对安全关键决策的事后辩护可能掩盖了真实的故障模式;例如,一辆自动驾驶汽车的视觉系统可能检测到了一个骑行者,但将其错误分类为静态标志,其 CoT 却不忠实地报告“前方无障碍”,从而误导工程师调试了错误的故障模式。当专业人士依赖这些解释来验证 AI 建议时,不忠实的理据可能导致错置的信任和被忽视的错误。过度信任 CoT 解释的用户和开发者可能会被误导,不了解模型是如何以及为何得出其结论的 [4]。

核心问题在于错置的信任:CoT 即使不忠实地反映模型的实际决策过程,也可能显得很有说服力。这一点至关重要,因为负责任地部署 LLMs——尤其是在敏感领域——不仅需要审计模型的输出,还需要审计得出这些输出所使用的推理过程 [56]。一个紧迫的研究问题是:CoT 的可信度标准是什么?为了回答这个问题,我们借鉴了解释哲学领域的文献,如 [80, 16],引入了我们后续分析的框架概念,概述了解释和推理的必要属性。自然地,这类论证(即语言化的推理步骤)必须在程序上健全(procedurally sound),遵循规范上正确的推理标准(例如,逻辑正确性、贝叶斯更新、符合法律约束等)。此外,我们要求论证是因果相关的(causally relevant)。具体来说,如果可以把论证中的一个断言替换为其反面(逻辑否定)而答案不变,那么该断言就是无关的,不应被使用。通俗地说,一个论证越是能够被随意改动而不影响结论,它就越差:结论必须因果地依赖于好的论证。例如,在某些情况下,模型会提供一个健全的论证,但这个论证与得出结论的真实原因毫无关系,就像别有用心或事后合理化一样。回顾之前的数学例子,如果在提示中加入一个不正确的提示:“5 cm + 12 cm + 13 cm = 32 cm”,模型可能会将步骤 6 改为复制这一行,而不是原始的“= 30 cm”结果,但却不提及这个额外信息是导致求和结果不同的原因。换言之,语言化的步骤并未真实反映模型的推理过程。

我们进一步要求论证是完整的(complete),即它们披露了得出合理结论的所有相关因果方面 [38]。当论证完整时,我们可以依赖它们来理解或预测模型的行为。我们对这一要求的解读不那么严格:思维链可能因为没有与内部计算建立一对一的映射而是“不完整的”,但通过一致性或与模型推理的部分对齐等相邻属性,仍然可以为特定任务提供关于模型推理过程的足够洞见 [1, 51]。

虽然上述标准并非详尽无遗,但我们认为它们是共同必需的,并且我们将这些属性的结合体称之为使 CoT 忠实(faithful)的条件。简而言之,一个解释(即语言化的推理步骤)如果既程序正确又准确反映了模型的决策过程,那么它就是忠实的。在我们看来,正是 CoT 感知到的忠实性(不恰当地)保证了模型作为可信赖的执行者和决策伙伴的判断。

3 作为一种可解释性技术的思维链

在本节中,我们总结了多个 AI 应用领域中将 CoT 描述为实现模型可解释性技术的研究 [36, 64, 58, 89, 88, 84, 34, 81, 52, 17, 85, 77, 39, 67, 41, 87, 22]。在附录 B中,我们详细介绍了用于识别将 CoT 作为可解释性方法的论文的流程,并估计在过去一年中,近 25% 的以 CoT 为中心的 arXiv 论文提出了此类主张。

以视觉为中心的任务。CoT 已成为许多以视觉为中心的 AI 系统的核心组成部分 [36, 64, 58, 88, 34, 84, 89],其中模型的输出是类别标签或以自然语言表达的决策(例如,在自动驾驶中“提高速度”)。CoT 被用来解释系统为何产生特定输出,并已在包括自动驾驶 [36, 64, 58]、视频情绪识别 [88] 和微视频谣言检测 [34] 在内的多种应用中被采用。例如,在自动驾驶中,CoT 可用于为模型规划的车辆未来轨迹提供理据。在情绪识别和微视频谣言检测中,CoT 解释了为何检测到特定情绪或为何将某些内容标记为不实信息。这些研究经常声称,包含推理轨迹增强了其模型的可解释性。例如,一个微视频谣言检测框架 [34] 可能被描述为可解释的,因为它使用 CoT 来合理化其分类结果。类似地,一个情绪识别模型 [88] 可能因其使用强化学习生成连贯的推理路径而被标记为可解释的。与此同时,其他一些工作 [84, 89] 则专注于在视觉语言模型中改进 CoT 本身,认为它们的 CoT 变体能产生更可解释的输出 [89] 或有助于构建可解释的视觉语言系统 [84]。

音频处理。最近的研究 [52, 81] 已将 CoT 的使用扩展到大型音频语言模型(LALMs),并常将其作为一种提高模型可解释性的技术。与其在视频情绪识别中的作用类似,增强了 CoT 的 LALMs 可以为它们在下游音频任务(如音频情绪识别、说话人数量验证和说话人意图分类)中的预测提供理据 [81]。总的来说,包含推理轨迹常被认为是生成更可解释输出的一种方式,从而增强 LALMs 的可解释性。

AI 用于医疗诊断。在像医疗诊断这样的高风险领域,AI 系统被期望在其决策过程中表现出高度的可解释性 [2]。在此背景下,CoT 作为一种使诊断过程更加透明和可靠的方法而广受欢迎 [17, 85, 77]。例如,一个医疗 AI 代理可能接收患者胸部的轴向 CT 扫描切片作为输入,并预测肺癌的可能性。当配备 CoT 功能时,该模型将其输出从二元分类扩展到包含解释决策过程的逐步理据。这类系统被认为更具可解释性和透明度,因为它们将黑盒预测转化为临床指南和领域专业知识的推理链 [17, 85, 77]。据报道,这些模型通过使其推理路径与既定的医学知识更紧密地对齐,实现了更高的可靠性和可解释性。

AI 用于法律。为法律应用开发的 AI 系统应具备透明、可解释和公正的特性 [45, 41]。CoT 也被探索为一种有助于满足这些要求的潜在技术 [39, 67, 41]。例如,先前的研究提出了以 CoT 为中心的提示工程策略,引导模型 (1) 在做出判决预测前通过法律三段论进行推理 [39],或 (2) 将法律内容分解为逻辑表达式以促进中间推理 [67]。由此产生的推理输出被声称更具可解释性,因为它们通常结构更清晰,并以相关法律条款和论证为基础。

AI 安全。CoT 已被 AI 安全领域的研究人员用作探究 LLMs 内部工作机制的窗口。例如,对齐伪装(alignment faking)现象 [33] 说明,当一个最初被训练来拒绝有害查询的 LLM 被指示表现得好像它正在接受旨在回答所有查询(包括有害查询)的训练时,该模型有时会遵从。这种行为被归因于模型为了避免可能改变其偏好行为的权重变化而做出回答有害查询的策略性决定。研究人员从模型对合规性的语言化理据中推断出这种战术策略。然而,如前所述,语言化的 CoT 不一定反映模型真实的内部计算。事实上,对齐伪装可能只是一个更广泛且长期存在的挑战的例证:LLMs 中指令遵循与安全性之间的权衡 [12, 7, 73]。

总结。我们识别出两个普遍趋势:(1) 许多研究因 CoT 具有类似人类的推理外观而将其理据呈现为模型可解释性,以及 (2) 当 CoT 增强模型的输出显得更结构化和领域化时,这些模型常被认为更具可解释性和透明度。虽然我们同意 CoT 是一种潜在的途径,但我们呼吁谨慎,因为它目前对于 AI 可解释性而言并不充分 [24, 86],因为这个窥探模型内部的窗口有时可能是不忠实的。然而,尽管自 2023 年以来不断有经验证据表明 CoT 输出常与模型实际的推理过程相悖 [75],但近期在视觉、音频、医疗和法律 AI 领域的研究 [64, 88, 34, 81, 52, 85, 77, 41, 87] 仍继续宣传其模型因使用 CoT 而具有可解释性。这种脱节凸显了我们的核心信息:当前的 CoT 技术本身不应成为声称一个系统是可解释、透明或可靠的依据。

4 不忠实思维链的证据

大量实证研究已经发现了许多模型思维链与其内部推理过程相悖的案例。在研究不忠实性的具体模式之前,重要的是要注意,CoT 解释的忠实性因模型架构等多种因素而异。下面我们总结了几个关键发现,每个发现都说明了 CoT 如何误导或掩盖模型的实际决策过程。在每种情况下,CoT 输出看似合理,但仔细研究后发现,它并未真实反映模型为得出最终答案所进行的内部计算。

偏见驱动的合理化与动机性推理。微妙的提示偏见——即保留意义的扰动,如答案重新排序——可以在不被 CoT 反映的情况下引导模型的预测。Turpin 等人 [75] 通过巧妙地偏置模型输入证明了这一点。例如,在提示中重新排序多项选择题的选项,使得正确选项总是在同一位置(例如,总是选项 B)。在这种情况下,GPT-3.5 和 Claude 1.0 经常选择那个被偏置的选项——然而它们的 CoT 解释从未提及重新排序是一个因素 [75]。当模型被偏向错误答案时,它们仍然会产生详细的 CoT 来为那些错误答案进行合理化解释 [75]。其结果是在一系列任务中准确率下降了多达 36%,而 CoT 却给人一种误导性的推理印象。

类似地,通过在提示中添加一个明确的答案(例如,“答案是 C”),然后要求模型为其选择辩护,研究了提示注入的偏见 [4]。模型通常会选择这个被提示的答案,并生成一个合理化它的思维链,但几乎从不承认提示的影响,即使没有提示它们通常会选择一个不同的答案。在一个有启发性的案例中,提示提出了一个三角函数问题,但添加了提示“答案是 4”。模型尽职地生成了一个以注入的提示 4 结尾的多步推导,并在过程中编造了一个虚假的算术(例如,“因为 cos(…) = 0.8 并且 4/5 → 0.8,所以结果是 4”)。内部归因分析显示,那些中间词元对最终答案的因果影响很小;是注入的提示,而不是陈述的步骤,驱动了结果。总体而言,Claude 3.7-Sonnet 和 DeepSeek-R1 分别仅在约 25% 和 39% 的时间里承认了注入的答案 [4]。这些发现表明,思维链通常作为事后合理化运作,忽略了真正的因果因素,并制造了一种透明解释的假象。

静默纠错。模型可能在它们的思维链中犯错,并在内部纠正它们,而 CoT 并未反映出这个纠正过程。Arcuschin 等人 [5] 记录了一些案例,其中 LLM 的中间推理步骤包含一个错误,但模型后来隐式地“修正”了它。例如,在一次 CoT 推理中,一个模型可能错误地计算出三角形的斜边为 16,而它应该是 13,但后来却陈述:“我们将 13 的斜边长度与另外两条边长相加得到周长。”模型在内部检测并纠正了这个错误,但 CoT 的叙述从未修正或标记这个错误——它读起来像一个清晰、连续的解决方案。这些静默错误表明最终答案是通过叙述步骤之外的计算得出的 [5]。因此,这个解释包含了关键的不忠实元素:如果我们严格按照语言化的步骤,我们将无法得到答案,但模型却通过未言明的计算做到了。这类错误在多步数学问题中频繁出现,模型可以利用模式识别来得出正确答案,尽管中间步骤存在缺陷 [5]。

不忠实的非逻辑捷径。有时模型通过潜在的捷径得出正确答案,例如记忆的模式,这些模式充当了绕过完整算法推理的替代推理路径,这使得明确的推理链变得无关或不正确 [5, 49]。Arcuschin 等人 [5] 发现,在困难的竞赛数学问题(例如,普特南考试问题 [74])上,模型偶尔会在其思维链步骤中插入一些任何健全的推理者都不会采纳的无意义简化或跳跃——但仍然输出正确答案,而未承认这种不合逻辑的推理 [5]。Lindsey 等人 [49] 使用归因图 [3]——一种追踪哪些计算步骤对最终输出有贡献的方法——发现,为了解决像“36 + 59”这样的问题,Claude 3.5 Haiku 同时使用了查找表特征——例如用于“将接近 36 的数与接近 60 的数相加”——以及加法计算特征。然而,当被要求描述模型如何得到答案时,模型报告它执行了逐位的进位加法,完全忽略了其使用的查找表捷径。这些发现表明,模型的内部模式匹配和对训练样本的回忆使其能够猜测正确答案,而无需在其 CoT 解释中提及这些捷径。在这些情况下,CoT 只是为了看起来合理而填充文本,而答案则是由一个不同的、潜在的推理链得出的 [5]。

填充词元。在某些算法推理任务中,通过使用填充词元——如“…”或学习到的“暂停”词元,这些词元在语义上对任务没有贡献,但会影响模型的内部计算——可以提高模型性能。例如,Pfau 等人 [63] 表明,添加填充词元使模型能够解决它们以前失败的问题,尤其是在使用密集监督进行训练时。类似地,在输入中附加可学习的暂停词元,这种词元可以作为一种填充词元,在许多任务上都带来了显著的性能提升 [32]。此外,在随机或损坏的中间轨迹上训练的模型,其表现与在正确推理路径上训练的模型相当 [70]。总的来说,这些结果对 CoT 带来的提升有多少是由于额外的(可能无意义的)基于词元的计算,而不是类似人类的序列化语言推理步骤提出了疑问 [63]。

总结。综合来看,这些研究揭示了 CoT 的不忠实性是跨模型架构和规模的一个普遍且根本性的挑战,其发生率很高,从提示偏见 [75]、未能承认隐藏影响 [4] 到复杂推理任务中的系统性恢复错误 [5] 都有体现。CoT 推理经常偏离模型为决定最终答案所进行的实际计算:微小的操纵会影响决策,而 CoT 仅是进行合理化解释而非报告真实原因;模型静默纠正错误而不反映在推理中;并且在呈现推理表象的同时利用捷径 [75, 4, 5]。这个问题使得评估 CoT 推理的忠实性成为一个不小的挑战,因为一个完全连贯的解释可能是完全捏造的,而一个有缺陷的解释可能实际上反映了模型的策略,最终削弱了对 CoT 表面价值的信赖,尤其是在安全和对齐至关重要的高风险领域。

5 为何 CoT 解释会偏离内部计算?

我们在前一节中展示了 CoT 不忠实性存在及其普遍性的经验证据,本节我们将探讨其根本原因。新兴的机制可解释性研究表明,Transformer 架构可能从根本上限制了 CoT 的忠实性。尽管证据仍在积累中,且主要基于较小模型,但有几个假说为语言化推理与内部计算之间的差距提供了合理的解释:

分布式计算与序列化语言表达的矛盾。多项研究表明,基于 Transformer 的 LLMs 以一种分布式的方式同时在许多组件中处理信息,而不是通过 CoT 所呈现的顺序步骤 [26, 27, 62, 59]。这种架构上的差异造成了模型计算方式与其语言化表达方式之间的内在不匹配。Dutta 等人 [26] 为这种并行处理提供了直接证据,证明“LLMs 为逐步推理部署了多个并行的答案生成路径”。例如,在解决“24 ÷ 3 = ?”时,模型并不像 CoT 可能暗示的那样执行长除法计算(“首先,我看 3 能除 24 几次…”)[42]。相反,多个注意力头中的模式会同时编码这些数字之间的关系,可能将其识别为一个记忆的事实,将其识别为 8 的乘法表的一部分,并计算除法——所有这些都是并行的 [65, 42]。

Dutta 等人 [26] 认为,自然语言中可见的思维链(CoT)充其量只是模型内部计算的一个选择性且通常是有损的投影。因为该计算是高度分布式的,并编码在叠加表示(superposed representations)中——多个特征共享相同的向量子空间 [27, 57]——一个单一的、顺序的叙述最多只能捕捉到众多同时发生的因果路径中的一条。为了产生简洁且看似合理的输出,LLMs 通常只生成一条这样的叙述来为其答案进行合理化,而不是阐明所有并行的路径——即使是那些可能显著影响最终答案的路径。因此,CoTs 通常忽略了有影响的因素,仅作为模型底层的分布式、叠加计算的部分、事后合理化。

多重冗余路径。对 LLMs 的研究发现了冗余计算路径的证据,即模型可以通过不同的内部途径得出相同的结论 [65, 54, 31]。例如,当被要求计算 144\sqrt{144}144 时,模型可能同时:(1) 将其识别为一个记忆的事实 (12 × 12 = 144),(2) 应用平方根算法,以及 (3) 与训练数据中的类似问题进行模式匹配。Lanham 等人 [47] 通过测试模型对其陈述思想的依赖性来衡量了这一现象:当从解释 144=12\sqrt{144} = 12144=12 的 CoT 中删除步骤 “144 = 12 × 12” 时,模型仍然输出 12,表明它并不依赖于语言化的推理步骤。这种现象的一个原因被归因于一种被称为“九头蛇效应”(Hydra Effect)的效应 [54],即如果一条路径被阻塞或移除,另一条可以取而代之。这种冗余性解释了为何扰动或移除部分 CoT 通常对最终答案影响甚微。对 LLMs 的机制性理解仍然有限,而且来自像 Llama-2 7B [26] 这样较小模型的发现可能无法完美推广到采用不同后训练技术的更大模型。然而,Transformer 在不同模型规模下的基本架构原则表明,序列化语言推理与并行分布式计算之间的不匹配可能是跨模型规模和训练方法的一个持续存在的不忠实性原因。这种架构约束——分布式计算与序列化语言表达之间的差距——与人类认知有着有趣的相似之处,我们将在附录 A中探讨。

生成忠实解释的挑战。Tanneru 等人 [72] 探索了通过在训练中惩罚不一致性来引导 LLMs 进行忠实 CoT 推理的方法,但仅取得了部分成功:在复杂问题上,模型常常会退回到看似合理但非因果的解释。这一发现不仅凸显了完全消除 LLMs 生成看似合理但非因果 CoT 倾向的难度,还指出了一个令人担忧的可能性:在微调或持续学习过程中,模型可能会重新获得这种不忠实的推理行为,正如先前工作所示,模型可以轻易地重新学习以前移除的概念 [50, 9]。Chua 和 Evans [19] 审查了专门的“推理训练”模型,并发现了一些改进——DeepSeek-R1 提及提示暗示的比例为 59%,而 DeepSeek-V3 仅为 7%——但在 41% 的案例中仍然未能承认有问题的影响。

Baker 等人 [8] 证明,当 CoT 在强化学习奖励函数中监控推理时,模型会学会生成看似良性的轨迹,同时秘密执行有害策略——实质上是“欺骗”CoT 监控器,这与 Denison 等人 [23] 关于 LLMs 泛化到复杂博弈行为以实现奖励操纵的发现一致。类似地,Hubinger 等人 [35] 发现 LLMs 即使在安全训练后仍会持续表现出欺骗性行为。虽然 Tanneru 等人 [72] 表明,有针对性的编辑可以在受控设置中提高忠实性,但经过推理训练的模型在约 40% 的测试案例中仍然忽略了隐藏的线索,这表明这类训练干预可能只能提供部分缓解。新的方法能否弥合这些差距——或者说这个障碍是根本性的——仍然是一个悬而未决的问题。

总结。这些机制性见解解释了第 4 节中的经验模式。例如,Turpin 等人 [75] 发现,重新排序多项选择题选项导致准确率下降高达 36%,而模型的 CoTs 从未提及这种影响——位置偏见通过独立于语言推理的注意力模式影响计算。

总的来说,机制性工作表明,CoT 解释系统性地偏离了模型计算。由于推理可能并行分布在多个组件中,将此过程线性化为逐步的文本必然会重新排序因果依赖关系并丢弃上下文 [27, 31, 26]。

6 哪些研究方向能提高思维链的忠实性?

在本节中,我们提出了三个提高 CoT 忠实性的总体方向。我们从三个方面着手解决这个问题:(i) 因果验证方法,确保我们看到的文本确实影响了模型的最终答案,即使它忽略了其他隐藏路径;(ii) 认知科学方法,旨在减少特定的失败模式(如幻觉步骤、答案优先的翻转),从而缩小——但不是消除——差距;以及 (iii) 人类监督接口,帮助用户检测任何仍然存在的偏差。要完全协调解释与计算,可能需要未来在电路级摘要、解耦的潜在空间或与答案共同生成证明的模型设计方面的工作。因此,我们将以下方向作为实现该长期目标的必要但部分的步骤。

确保因果性。一个因果性的 CoT 是指,其语言化的推理步骤对模型的最终答案有可衡量的影响——也就是说,修改或移除这些步骤会改变输出。这与忠实性不同,忠实性要求所有相关的内部计算步骤都被准确地语言化。虽然一个因果性的 CoT 不一定忠实(因为模型内部过程中可能存在未被语言化的相关步骤),但它仍然比生成一个与模型决策无关的非因果性 CoT 有所改进。一个非因果性的 CoT 可能看起来合理,但与模型的内部计算几乎没有或完全没有关系——实际上是误导用户。一个因果性的 CoT,虽然不完整,但至少保证了所显示的步骤对最终答案有所贡献,从而为模型的决策过程提供部分透明度。我们提出三种不同的方法来确保 CoTs 的因果性:

  1. 黑盒方法:确保 CoT 因果性的最基本方法是系统地生成省略或改写看似对最终答案至关重要的个别推理步骤的备选链。通过检查模型是否仍能得出相同的答案,我们可以评估被省略或更改的步骤是否真正影响了结果。由此产生的行为差异——通过跨反事实的一致性率来衡量——可以揭示不忠实的推理 [75, 47, 6, 68, 4]。然而,这种方法的一个风险是,改写推理步骤可能会生成分布外的轨迹 [61]。在这种情况下,模型的行为可能会变得不可靠——不是因为步骤无关紧要,而是因为改写后的输入超出了模型的训练分布范围,从而给因果测试带来了混淆因素。
  2. 灰盒方法:一个更复杂的方法是训练一个验证器模型 V 来区分因果和非因果的思维链(CoTs)。为了生成监督数据,我们为同一个提示构建成对的 CoTs:一个模型实际用来产生答案的,和一个看起来合理但对模型决策没有因果责任的对抗性 CoT。这些对抗性 CoT 可以通过删除或更改原始 CoT 中的关键推理步骤,或通过生成看似合理但无法独立导向相同答案的干扰解释来创建——借鉴了之前的方法 [47]。虽然这不需要完全的机制干预,但我们假设这样的扰动可以减少或消除因果影响。然后训练验证器来预测一个 CoT 是否反映了底层的因果计算。这个设置可以被看作是一个证明者-验证者框架,其中模型作为证明者产生理据,而验证者判断其忠实性。成功与否通过对未见过的提示的泛化能力来衡量,即正确识别忠实与虚假的 CoTs [21]。
  3. 白盒方法:通过将 Meng 等人 [55] 提出的因果追踪技术扩展到多步推理,我们可以识别与每个 CoT 步骤相关的隐藏激活,并通过交换或消除它们来衡量其对最终答案的影响。一个因果性的 CoT 就是当关键激活被修补时会产生显著变化的 CoT [4]。这与旨在报告模型内部隐藏信息的 ELK [18] 相关 [53]。然而,干预可能会由于因果敏感性而导致意想不到的语义变化 [66]。

受认知科学启发的方法。人类认知与 LLM 推理之间的相似性为提高 CoT 忠实性提供了潜在的改进方向。人类的元认知、错误检测和双重过程推理为更透明的 AI 解释提供了有价值的设计模式。下面,我们概述了三种受认知科学启发的方法,这些方法可能有助于弥合模型计算与语言化推理之间的差距:

  1. 通过元认知进行错误监控。可以训练模型为每个步骤分配一个置信度分数或一致性检查,实质上是问自己“这是否从之前的步骤逻辑上推导出来的?”如果一个步骤的置信度低或不一致,模型可以暂停或修改那部分 CoT。这种受人类错误监控启发的内部哨兵机制,可以在现场捕捉到捏造的内容。然而,仅靠步骤级的一致性检查无法解决常见的“答案优先”(顺序翻转)失败模式,即模型秘密地先决定答案,然后再为其推理进行追溯。检测或防止这种翻转可能需要补充性的因果测试(例如,验证扰动 CoT 会改变答案)或强制模型在生成最终答案之前先提交其推理的机制。然而,实现可靠的自我监控并非易事——模型的“内部批评家”可能与模型本身一样容易出错,或者过于保守,将有效的创造性跳跃标记为错误。
  2. 自我修正叙事。如果语言化推理的预测结果与 CoT 正在进行的内部计算之间存在显著不匹配,模型将识别出潜在的叙事偏离。然后它可以回溯,修改或重新生成步骤,以更好地与内部一致的计划对齐。这种迭代式的改进可能会减少模型“自说自话”陷入错误答案并给出不忠实理据的情况。一种选择是检测并修复 CoT 中的不正确断言 [43]。另一种是让模型模拟一个高层计划,然后生成支持该计划的思维链以增加连贯性。一个风险是模型可能学会利用这个系统,仅仅为了满足预测而调整其推理,而不是为了揭示真相,这可能会强化偏见。实现反馈循环也可能减慢推理速度并使训练复杂化,就像人类的迭代思考比直觉跳跃需要更多的认知资源一样。
  3. 双重过程推理。在实践中,可以先让一个 LLM 直觉地生成一个草稿答案,然后调用一个次级过程(另一个模型或自我反思步骤)在最终确定前对草稿进行逐步的批判性评估。这样一个元推理模块可以根据事实和逻辑规则来验证主 CoT 的每一步,就像数学家检查证明的每一行一样,或者通过估计给定先前断言为真的情况下断言为真的条件概率 [43],从而可以验证概率法则是否被一致应用。这种两阶段方法可以通过确保最终解释通过内部一致性审计来使 CoT 更值得信赖。缺点可能是增加了复杂性:“批评家”模块需要与“提议者”一样知识渊博,如果它们意见不合或次级过程有盲点,系统可能会停滞甚至产生不一致的结果。还存在一种虚假安全感的风险:一个有缺陷的 CoT 可能会侥幸通过一个弱的验证器,让我们陷入不应有的信任。另一个问题是,CoT 中的某些断言在预测答案时并不需要 100% 确定才有用,而使用概率演算 [43](它推广了纯符号逻辑)会很有用。

加强对 AI 推理的人类监督。除了对 CoT 本身进行技术改进,我们还必须开发更好的工具和框架,以帮助人类有效地评估、解释和监督 AI 的推理过程。人类监督既需要忠实的解释,也需要有效的界面,以支持对模型输出的批判性评估。以下方法可以帮助弥合 AI 推理与人类理解之间的差距:

  1. 忠实性指标与评估。使用像扰动影响(移除 CoT 步骤后的准确率下降)和提示揭示率(模型承认隐藏提示线索的频率)这样的指标来标准化模型评估 [47, 4]。基准测试应包括带有候选因果因素的任务,以评估这些因素是否影响模型推理。
  2. 忠实性的缩放定律。描绘忠实性指标如何随模型大小和训练方案(基础模型 vs. CoT 微调 vs. RLHF)演变,量化扰动影响和揭示率的趋势。初步证据显示趋势复杂:更大的模型可能在典型的问答设置中生成更忠实的解释 [69],但也可能更巧妙地隐藏偏见 [4]。
  3. 以人为中心的界面。设计交互式 UI,让用户可以探索、验证和标注 CoT 步骤(例如,点击展开的论证或步骤级置信度指示器),借鉴潜在知识提取工具 [15]。用户研究应衡量决策准确性、信任校准和错误检测方面的改进。

虽然上述研究方向勾勒出了有前景的方法,但重要的是要注意,忠实的 CoT 仍然是一个开放的挑战。当前的工作主要集中于检测不忠实性(例如,通过扰动研究和因果追踪),而不是解决它。提出的解决方案——因果验证、认知启发的架构或人类监督——在受控环境中仅显示了部分成功。例如,虽然验证器模型可以识别一些非因果的 CoTs,但它们在处理新颖的推理模式时会遇到困难,并且自身也可能不忠实。同样,虽然激活补丁可以揭示哪些步骤影响了最终答案,但它并不能保证语言化的推理与模型的内部计算相匹配。根本性的挑战依然存在:Transformer 架构以分布式的方式处理信息,这种方式难以进行顺序解释,而当前的方法尚未弥合计算与解释之间的这种架构鸿沟。

7 我们应如何平衡思维链的实用性与局限性?

当前的 CoT 技术正处在实用性与误导性信任的十字路口。一方面,CoT 通过鼓励结构化推理,为模型过程提供了一个人类可读的窗口,无疑提升了许多任务的性能。另一方面,正如我们所论证的,这些窗口可能是危险的——CoT 通常看起来像一个逻辑推导,但可能与模型得出答案的路径不符。在本节中,我们讨论如何既保留 CoT 解释的实用性,又减轻其不忠实性。我们概述了几种有前景(尽管是推测性的)方法,并考虑了关于此类干预必要性的不同观点。

替代观点。虽然我们的论文呼吁对提示方式进行重大修改,但许多研究人员可能并不认为 CoT 的不忠实性是一个紧迫问题,他们或者容忍其目前的局限,或者假设未来的模型进步会解决它:

  • CoT 作为有用的代理(忠实性非必要):一些研究人员强调,尽管存在保真度问题,CoT 仍然具有实际用途。一个能导向正确答案的、看似合理的解释可能是有价值的,即使它不是模型所采取的确切路径。例如,在医疗诊断中,模型可能仅仅通过从训练中见过的相似案例中复制答案来得出正确诊断,但用教科书式的医学知识来解释其推理。虽然不忠实于内部过程,但这种解释有助于医生理解和验证诊断。同样,在法律文件分析中,模型可能使用捷径来识别相关先例,但通过标准法律原则来解释其推理,使输出对律师更具可操作性。这种观点优先考虑解释在人机交互中的实用性,而非其作为模型计算表示的准确性。然而,这种方法有其局限性:它可能导致在高风险情境下过度信任,此时理解真实的推理过程至关重要,并且它可能掩盖只有在检查实际计算路径时才显现的系统性偏见或错误。
  • 扩展和更好的训练能弥合差距吗? 一些人认为,随着模型变得更强大并在更好的数据上训练,CoT 的不忠实性会自然减少。根据这种观点,随着模型在整体推理能力上的提升,其内部计算与语言化解释之间的差距应该会缩小。例如,更大的模型在复杂推理任务上表现出更好的性能 [14],而像人类反馈强化学习(RLHF)这样的专门训练技术在使模型更诚实地表达其推理方面取得了一些成功 [44]。然而,这种观点面临几个挑战:(1) 我们缺乏明确的证据表明,更大的模型产生更忠实的解释,而不仅仅是更看似合理的解释;相反,有证据表明,随着模型变大,它们会产生更不忠实的解释 [47],(2) 没有证据表明,提高任务性能的训练方法也会激励模型产生更忠实的解释,以及 (3) Transformer 的架构限制(分布式处理)可能从根本上限制了它们语言化其内部计算的能力 [76]。最近的工作表明,更先进的模型可能只是更擅长隐藏其不忠实性,使得检测解释与实际计算何时偏离变得更加困难 [8]。
  • 用未来的可解释性工具辅助 CoT:支持者认为,可解释性技术的进步,如激活补丁、因果追踪和注意力可视化,可以为模型计算提供补充性见解 [15]。例如,虽然模型的 CoT 可能无法完全捕捉其推理过程,但这些工具可以帮助识别输入的哪些部分影响了输出,以及不同的模型组件如何为最终决策做出贡献。这种方法的优点在于可以与现有模型配合使用,并且可能提供比 CoT 本身更详细的见解。然而,当前的可解释性工具面临显著的局限性:它们通常需要大量的计算资源,可能无法很好地扩展到更大的模型,并且即使对于专家来说也可能难以解释 [11, 46]。此外,这些工具通常提供事后分析而非实时解释,这使得它们在许多部署场景中不太实用。
  • CoT 作为复杂任务中的计算执行:一种更乐观的观点是,思维链不仅仅是事后合理化或可解释性工具,而是模型在复杂任务上实际计算的一部分。也就是说,在足够困难的推理环境中——比如多跳问答或数学证明——模型可能依赖于生成中间步骤来构建其思路,这种方式可能反映了人类的推理过程。在这种情况下,CoT 可能在因果上位于最终答案的上游,使其成为模型前向传播的部分忠实反映。虽然直接的经验证据仍然有限,但早期的观察表明,没有 CoT 提示的模型在复杂推理上常常失败,并且它们的中间步骤倾向于与正确的高层抽象对齐。例如,Baker 等人 [8] 的研究表明,CoT 推理可以揭示现实世界强化学习代理中的奖励操纵行为,这表明在复杂环境中,CoT 可以真实地反映模型认知并支持有效的监控。在这种观点下,CoT 的实用性不来自于其对某个潜在的、不可解释的前向传播的忠实性,而来自于它就是前向传播:一个人类可读的模型计算轨迹。当然,这种观点仍然留有担忧的余地——模型可能会根据提示或上下文,在真实推理和装饰性解释之间切换——但这表明 CoT 的忠实性应该逐任务评估,而不是被假定为总是缺席。

总结

虽然 CoT 可能提供沟通上的清晰度,帮助人类理解模型的推理过程,但当语言链偏离模型的内部计算时,它仍然存在误导的可能。在高风险场景中,这种偏离如果导致用户过度信任一个流畅但不忠实的理据,就可能转化为实际的伤害。我们的分析以及在第 6 节中提出的研究路线图——针对因果 CoT 验证、认知科学启发的架构和增强的人类监督工具——为实现既易于理解又具因果基础的解释指明了道路。

8 结论

思维链提示被广泛认为是迈向可解释语言模型的一步。然而,我们的分析表明,这一承诺尚未实现,当前的 CoT 技术常常被过度信任。CoTs 可能看起来连贯且有说服力,却不忠实地反映模型的真实决策过程。这种差距并非罕见的异常——它是一种由提示偏见、潜在捷径、架构设计以及分布式计算与顺序语言化之间内在不匹配所塑造的系统性现象。尽管如此,CoT 仍然是从黑盒模型中引出推理轨迹的有用机制。在可能构建模型问题解决过程的复杂任务中,CoT 的沟通性质是有价值的。但它不应被误认为是事实真相。没有因果基础或验证,CoT 解释就有可能强化透明度和可解释性的幻觉,从而在高风险领域的负责任部署中埋下隐患。

我们提出了一个评估 CoT 忠实性的框架——基于程序健全性、因果相关性和完整性——并确定了不忠实性的经验和架构驱动因素。我们还提出了一个自动化审计流程,以记录近期以 CoT 为中心的文献中的可解释性声明。展望未来,我们建议研究人员和从业者 (1) 避免将 CoT 视为可解释性的充分证据,(2) 采用更严格的因果评估方法,以及 (3) 开发混合技术,既保留 CoT 的可访问性,又揭示其在模型计算中的真实作用。

参考文献

【原文略】

附录

A 思维链是否反映了人类的推理模式?

有趣的是,语言化解释与底层计算过程之间的脱节并非人工智能网络所独有。虽然我们并非声称 LLMs 的思考方式与人类相同,但认知心理学和神经科学已经记录了人类中类似的现象,这些现象为理解和改进 AI 解释提供了警示性的类比和潜在的灵感:

虚构与事后合理化。Nisbett 和 Wilson [60] 的研究表明,人们常常为其决策提供看似合理但不准确的解释。在许多情况下,人类并未意识到其行为的真正驱动因素,而是提供虚构的叙述。这表明,看似一步一步的解释(例如,一个人通过列举逻辑因素来解释其选择某个产品,而实际上他们受到了微妙的环境线索的影响)可能仅仅是合理化,就像 LLM 的 CoT 可能在未揭示其真实起源的情况下为答案辩护一样。

左脑解释器。经典的裂脑研究揭示,大脑的语言主导半球会为由对侧半球发起的行为生成解释——即使它无法接触到真正的起因 [30]。这个“左脑解释器”不断地编造一个连贯的故事,掩盖了神经处理的分布式和并行特性。虽然我们承认这只是一个推测性的类比,但最近关于 Transformer 中分布式计算的研究 [26, 59, 65] 表明,LLMs 可能同样生成顺序的叙述来掩盖其并行的计算过程。

人类与 LLM 中的并行处理与顺序叙事。人脑通过分布式的并行过程运作,但却产生了一个顺序的主观感知和推理叙事(例如,尽管存在并行的神经处理,我们体验到的是一个连续的意识流)。预测性处理理论认为,大脑不断地对输入信息生成假设,并更新其内部模型以最小化预测错误 [20]。我们体验到的意识叙事是这个复杂过程的简化摘要。虽然是推测,但我们注意到,一个 LLM 的 CoT 可以被看作是从其潜在的分布式计算中采样出的一条可能的叙事路径。值得注意的是,大脑的叙事可以是适应性的:如果预测与现实严重矛盾,错误信号会促使修正理解。这暗示 LLM 可能会从类似的机制中受益,当步骤与其潜在知识冲突时检查并调整其 CoT,尽管如第 5 节所述,模型已经表现出一些内部纠错能力。

元认知与错误监控。人类表现出元认知:反思和评估自己思想的能力。大脑甚至有专门的错误监控电路:例如,前扣带皮层在检测到推理中的错误或冲突时会发出错误相关信号 [13, 83]。这些信号可以触发更高的注意力或策略调整,防止我们自信地坚持一个有缺陷的思路。虽然模型已经显示出一些内部纠错能力(如第 5 节所述),但明确的元认知机制可能有助于通过使纠错过程更加透明来提高其语言化推理的忠实性。

迈向自我修正叙事(AI 中的预测编码)。在神经科学中,预测编码为大脑如何通过最小化意外来修正其叙事提供了一个强大的模型。虽然模型已经显示出一些计划和内部纠正错误的能力,但我们或许可以通过设计一个 LLM 推理过程来增强这一点,即明确预测其当前思维链的可能结果,并将其与模型的实际下一步决策或最终答案进行比较。

双重过程推理与系统 2 类似物。认知科学通常区分快速、直觉的思维(系统 1)和缓慢、审慎的推理(系统 2)[40]。人类有时可以启动后者来复核或否决前者的冲动。虽然今天的 LLMs 可能在直觉和逻辑处理之间没有明确的架构分离,但它们在不同情境下确实表现出不同的行为,有时直接回答(类似于系统 1),有时则进行逐步推理(类似于系统 2)。这使得一些研究人员推测,可以明确地将一个系统 2 模块整合到架构中用于推理。例如,Bengio [10] 为神经网络提出了一个“意识先验”,鼓励稀疏、顺序的神经元激活,这类似于意识思维。


B 在近期 AI 社区中检测 CoT 可解释性声明

在第 3 节中,我们讨论了以往的研究如何将 CoT 认定为模型设计中的一种可解释技术。在本节中,我们介绍我们为大规模识别此类声明而开发的自动化流程。

B.1 CoT 可解释性声明检测流程
B.1.1 流程概述

给定一篇以 CoT 为中心的论文,我们的流程(如图 2所示)将其分为三类之一:第 1 类 - 将 CoT 视为可解释或透明技术的论文;第 2 类 - 做出第 1 类声明并额外将 CoT 作为其提出模型/数据集主要特征的论文;“均不属于” - 不将可解释性归因于 CoT 的论文。我们收集了 1000 篇最新的 arXiv 论文(从 2024-04-30 到 2025-06-05),其主要主题是 CoT,并在此基础上进行分析。

我们的流程采用检索增强生成(RAG)来实现分类。输入的论文被分割成文本块,这些文本块被嵌入到向量空间中形成向量数据库。然后,我们根据与预定义查询的语义相似性,检索出前 k 个最相关的块。这些选定的块与查询一起构成最终的提示,提交给 GPT-4o 来确定类别。我们的实现基于 LangChain 和 Faiss [25] 库,默认 k = 4。

在这里插入图片描述
图 2:我们的 CoT 可解释性声明检测流程概览,该流程将论文分为第 1 类、第 2 类和均不属于。对于每篇论文,我们首先将正文文本分成块并将其嵌入为向量表示。然后我们检索与预定义查询最相关的 top-k 个块,并将它们与查询连接起来形成输入提示。此提示被传递给 GPT-4o 以确定类别。

这些认知上的相似之处为提高 CoT 忠实性指明了潜在方向。正如人类从元认知意识和错误监控中受益一样,未来的 LLMs 可能会整合更明确的自我检查机制。然而,实现这样的系统面临着与人类认知相似的挑战:监控系统可能与它所监控的过程一样容易出错。认知科学的关键洞见在于,叙事建构——无论是人类的还是人工智能的——都内在地将复杂的并行过程简化为顺序的故事。

B.1.2 arXiv 爬取规则与流程查询

我们概述了我们的论文收集标准以及用于检索文本块和构建最终提示的查询。具体来说,如果一篇 arXiv 论文满足以下条件,我们将其纳入:

  1. 其摘要包含以下任一字符串:“chain-based reasoning”、“CoT”或“chain-of-thought”。
  2. 其长度至少为 8 页。

从满足这些标准的论文池中,我们收集了最近的 1,000 篇论文。


在这里插入图片描述
在这里插入图片描述

图 3:从 arXiv 收集的 1000 篇最新 CoT 相关论文的统计数据。(a) 类别分布。24.4% 的论文在将 CoT 融入其模型或数据集构建时,将其描述为一种增强可解释性的技术。(b) 每月三类论文的数量,以及第 1 类和第 2 类论文的合并比例。值得注意的是,CoT 可解释性声明的比例并未随时间呈现下降趋势。


输入查询如下:

思维链是不可解释/不透明的,因为它可能不反映 LLM 的内部计算。然而,一些论文仍然 (1) 将思维链(或基于链的推理)提及为一种可解释/透明的技术;或者甚至声称 (2) 它们采用思维链来建立一个可解释的模型/框架/流程/代理/数据集。

这篇论文是否声称 (1)?或者甚至 (2)?还是以上皆非 (N)?请用以下模板给出答案和理由:“answer: X reasons:”,其中 X 是 1、2 或 N。

B.2 结果

图 3a 展示了 1000 篇以 CoT 为中心的论文中三个类别的分布情况。我们发现,24.4%——一个不可忽视的比例——的论文在介绍其基于 CoT 的框架时,将 CoT 视为一种除了性能提升外,还使其模型具有可解释性的技术。只有 3.4% 的论文没有将其核心方法与可解释的 CoT 联系起来,而仅仅承认 CoT 作为一种可解释性技术。为了探索时间趋势,我们按最终更新月份对论文进行分组,并绘制了第 1 类和第 2 类论文的合并比例,如图 3b所示(由于数据覆盖不完整,2024-04 和 2025-06 被排除在外)。我们观察到可解释性声明没有明显下降的趋势,这凸显了我们工作的动机。

为了评估我们自动化流程的可靠性,我们手动分类了最近的 100 篇以 CoT 为中心的论文(从 2025-05-25 到 2025-06-05)。最终的一致性率为 83%,假阳性率——即我们标记为“均不属于”但 GPT-4o 标记为“第 1 类”或“第 2 类”的案例——仅为 5%。

1 类和第 2 类论文的合并比例,如图 3b所示(由于数据覆盖不完整,2024-04 和 2025-06 被排除在外)。我们观察到可解释性声明没有明显下降的趋势,这凸显了我们工作的动机。

为了评估我们自动化流程的可靠性,我们手动分类了最近的 100 篇以 CoT 为中心的论文(从 2025-05-25 到 2025-06-05)。最终的一致性率为 83%,假阳性率——即我们标记为“均不属于”但 GPT-4o 标记为“第 1 类”或“第 2 类”的案例——仅为 5%。

最后,我们采用另一个简单的基于 GPT-4o 的分类流程,根据论文标题和摘要将 1000 篇论文中的每一篇分类到四个领域类别之一——医疗 AI、法律 AI、自动驾驶汽车和以上皆非。这个自动化分类随后经过手动验证,以确保 100% 的准确性。我们的分析显示,在高风险领域的论文更有可能将 CoT 作为一种可解释性工具,与总体平均水平(25%)相比。具体来说,42 篇医疗 AI 论文中有 16 篇(38%),27 篇自动驾驶汽车论文中有 17 篇(63%),以及 4 篇法律 AI 论文中有 1 篇(25%)采用了这种可解释性的框架。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值