大模型评测的真正难点：内在精细决策逻辑与人认知的对齐

本文链接：https://blog.youkuaiyun.com/AIBigModel/article/details/143187512

知乎：Qs.Zhang张拳石
链接：https://zhuanlan.zhihu.com/p/2092355900

陈鹭，张拳石

Lu Chen, Yuxuan Huang, Yixing Li, Yaohui Jin, Shuai Zhao, Zilong Zheng, Quanshi Zhang, "Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs" in arXiv:2410.09083, 2024.

大家好，我是陈鹭，是张拳石老师的访问实习博士生。

评测模型输出vs.评测模型内在逻辑。目前，对大模型的评测往往着眼于大模型输出结果本身的正确性（诸如幻觉问题和价值对齐问题）[1-3]，然而在实际工业应用中，评测大模型表征可信程度的症结点在于评测大模型输出结果背后潜在决策逻辑的正确性，即神经网络是否使用正确的逻辑进行模型推断（inference）。事实上，我们发现尽管大模型在特定任务上已经展现出较高的准确率，其内在决策逻辑往往是非常混乱的。

然而，如何从数学上严格地解释神经网络内在的精细决策逻辑，是可解释性领域最大的挑战之一，即如何从理论上确保神经网络的解释结果是客观、可靠、且严谨的。这里，我们不能依赖一些工程近似方法（例如相关性方法或近似注意力机制）进行近似或拟合，因为这些方法往往在应用中无法给出解释严谨性的理论保障或实验验证。

幸运的是，团队之前基于交互的解释[3-4]已经证明了下面两个性质，从理论上保证了神经网络的决策逻辑可以被解释为稀疏的符号化交互概念。

证明一个在遮挡样本上平滑输出的神经网络（满足三个常见条件），在单个输入样本上，仅可以触发极少量的输入单元间的交互关系。例如，一个大语言模型，在输入句子上，仅仅触发 tokens 之间的 200 种交互效应；一个图像分类神经网络，在单个图像输入中，仅仅触发不同图像区域之间的少量交互效应。
理论证明给定一个包含 (n) 个输入单元的输入样本，基于触发的少量交互效应，可以精确拟合输入样本在 (2^n) 种任意遮挡状态下神经网络的所有输出值。

https://zhuanlan.zhihu.com/p/693747946

基于上述的理论基础，以法律大模型为例，我们发现尽管法律大模型判案结果的正确率很高，但哪怕在一些正确预测的法律案例中，超过一半的决策逻辑在人类认知上都是错误的。例如，我们发现大模型往往使用与判决结果无关的时间、地点或人物情感，或使用和案件无关的个人身份信息，来做出判决。基于等效交互理论，我们精确解释了神经网络的精细决策逻辑，并发现“使用错误或不相关的逻辑进行模型推断（inference）”是大模型中普通存在的问题。

我们认为跳出端对端评测范式，在精细决策逻辑层面评测大模型，代表了大模型评测的一个根本方向，确保大模型逻辑和人类认知的真正对齐。同时，在精细决策逻辑上的可靠性也将成为未来人工智能模型评测、模型准入的核心标准。

使用基于交互的解释评估法律大模型决策逻辑的正确性。无论如何随机遮挡输入样本，使用基于交互的代理逻辑模型可以很好地拟合法律大模型对被告Andy做出“抢劫”判决结果的置信度得分。其中，大模型给出的判决结果的背后使用了一部分不可靠（与人类认知不符）的决策逻辑。

一、交互的定义

让我们考虑一个输入样本，它包含个输入变量。我们用集合表示这些输入变量的全集。每个输入变量可以表示一个 token、一个单词、或者一个短语/短句。然后，令表示目标输出的标量置信度得分。例如，目标输出可以设置为由大模型生成的一个序列，这个序列包含个 tokens 。这样，大模型输出结果的置信度得分可以定义为:

其中，表示在生成第个 token 之前的前个 tokens 组成的序列。表示给定输入句子和前个 tokens 的条件下生成第个 token 的概率。

这样，对于每个子集，我们可以用下面公式来定义中所有输入变量之间“与交互”和“或交互”：

我们可以这样理解与或交互：每个不为零的与交互表示大模型所编码的中所有变量之间的“与关系”。例如，给定一个输入句子 “the company is a legal person”，两个词同时出现形成了一个专业的法律概念，使得产生一个推动大模型的输出与“法律实体”相关的数值。类似地，每个不为零的或交互表示大模型所编码的中所有变量之间的“或关系”。例如，let 我们考虑一个输入句子 “he robbed and assaulted a passerby”，只要中任何一个词出现，就会产生一个的数值效用，将导致大模型的输出推向有罪判决。

为什么使用“与交互”和“或交互”能忠实地解释大语言模型所建模的逻辑？这是因为大语言模型所建模的交互满足两个属性，即无限拟合性和稀疏性。这两个属性从理论上保证了基于交互的解释的忠实性。

无限拟合性: 让表示基于非零交互作用构建的代理逻辑模型。如图 2 所示，无论我们如何在个不同的遮挡状态中随机遮挡输入样本，该代理逻辑模型都能准确拟合大语言模型在所有个遮挡样本上的置信度得分，即：

图 2: (a) 交互的无限拟合性的示意图。(b) 实验验证代理逻辑模型可以准确拟合大语言模型的置信度得分数。
稀疏性: 大语言模型往往只建模少量的显著交互概念，而大部分交互概念都是数值效用都接近于 0 的噪声。

二、标注相关 Tokens、无关 Tokens 和禁用 Tokens

我们可以将少量显著的与或交互作为法律大模型所使用的决策逻辑的忠实解释。为了识别大模型所编码的可靠和可靠的交互，我们需要人为标注在法律案件例中的相关 tokens、不相关 tokens 和禁用 tokens。根据人类的认知，我们将所有输入变量的集合划分为三个互不相交的子集，即相关 tokens 的集合、不相关 tokens 的集合和禁用 tokens 的集合，满足：

相关 tokens: 表示在人类认知中与判决结果密切相关，或作为判决结果的直接原因的 tokens。例如，给定一个输入的法律案件 “on June 1, during a conflict, Andy stabbed Bob with a knife, causing Bob’s death”，法律大模型对安迪的判决结果为“谋杀”。在这种情况下，输入变量可以设置为。其中，是做出判决的直接原因，因此被标注为相关 tokens。
无关 tokens: 表示在人类认知中结果没有紧密联系，或不是判决结果的直接原因的 tokens。例如，在上述法律案件中，无关标记的集合注释为。
禁用 tokens: 通常表示法律案件中广泛使用的 tokens，但使用禁用 tokens 可能会导致严重的逻辑错误。例如，在一个涉及多人的法律案件中，如 “Andy assaulted Bob on the head, causing minor injuries. Charlie stabbed Bob with a knife, causing Bob’s death,” 法律大模型对安迪的判决结果为“袭击”。令所有输入变量的集合为：

虽然输入变量 “Charlie stabbed Bob with a knife” 和 “causing Bob’s death” 都是关键的事实，但它们不应该影响对 Andy 的判决结果，因为这些行为描述的是 Charlie 的行为，而非 Andy 的行为。因此，这些输入变量被归类为禁用 tokens，即：

三、可靠和不可靠的交互效用

对相关、不相关和禁用 tokens 的划分使我们能够区分法律大模型所使用的可靠和不可靠的决策逻辑。我们将与或交互分解为可靠、不可靠的交互效用。可靠的交互效用是与人类认知相符的交互效用，通常包含相关 tokens 且不包含禁用 tokens。相反，不可靠的交互效用是指不符合人类认知的交互效用，可以归因于不相关 tokens 或禁用 tokens。

“可靠与交互效用”和“不可靠与交互效用”：

与交互只有当中的所有输入变量（词组或短语）都出现在输入的法律案件中时才会被触发。因此，与交互的可靠交互效用必须包含相关 tokens，即，并且不包含禁用 tokens，即。否则，如果集合包含了任何禁用 tokens，或者不包含任何相关 tokens，那么这个“与交互” 就表示不可靠的逻辑。这样，的可靠与交互和不可靠与交互的计算如下：

“可靠或交互效用”和“不可靠的或交互效用”：或交互当中的任何输入变量（标记或短语）出现在输入法律案例中都会触发。因此，我们可以将可靠交互效应定义为中分配给中相关的输入变量的数值分量。如文献 [6]，我们将或交互均匀分配给中的所有输入变量。

可靠交互效用的比例

给定一个大语言模型，可靠交互效应与所有显著的交互效用之比的计算方法如下：

的数值越大，表明与人类认知一致的交互效应比例越高。

四、评估法律大模型的决策逻辑与人类认知的对齐质量

我们使用基于交互的解释评估法律大模型决策逻辑的正确性。我们计算大模型所建模的与或交互作用，并从这些交互中识别大模型可能存在的表现缺陷。具体地，我们主要关注法律判决中的潜在表征缺陷，如：(1) 判决结果受到不可靠的情境 tokens 的影响；(2) 判决结果受到错误的实体匹配的影响；(3) 判决结果受到剧烈变化的影响。

问题 1: 基于不可靠的情感 tokens 做出判决结果

虽然法律大模型在预测判决结果方面取得了相对较高的准确率，但对大模型的置信度得分有贡献的相当多的交互作用都归因于语义无关或不可靠的情感 tokens。我们将作为判决结果直接原因的 tokens 标注为相关 tokens，将非直接原因的 tokens 标注为不相关 tokens，例如在实际犯罪行为背后的语义无关的 tokens 和不可靠的情感 tokens。

图 3 显示了一个法律案例，即 Andy 与 Bob 发生冲突，并攻击 Bob，犯下了伤害罪。根据人类的认知，“began to”、“causing”等 tokens 和 “dissatisfaction” 等情感 tokens 与判决结果无关。我们发现，SaulLM-7B-Instruct 大模型编码的一些决策逻辑与人类认知非常吻合，即把包含相关 tokens 的可靠交互识别为显著的交互。然而，大模型也将大量不可靠的交互当作显著交互建模，例如包含无关标记 “dissatisfaction” 和 “anger” 的交互，这暴露了其决策逻辑的潜在缺陷。

SaulLM-7B-Instruct 模型建模的可靠交互效用的比例为。相比之下，BAI-Law-13B 模型建模的可靠交互作用的比例为。

问题 2: 基于错误的实体匹配做出判决结果

法律大模型中，有相当大比例的置信度分数被错误地归因于错误实体的犯罪行为。换句话说，大模型错误地使用了一个人的犯罪行为来对另一个无关的人做出判断。为了评估这种错误的实体匹配对法律大模型的影响，我们将无关实体的犯罪行为 tokens 标注为禁用 tokens。

图 4 显示了一个法律案例，即 Andy 撕咬 Charlie，构成轻伤，随后 Bob 用铁锹击打 Charlie，导致死亡。由于 “hit”、“with a shovel”、“injuring” 和 “death” 等 tokens 描述的是 Bob 的行为和后果，与 Andy 没有直接关系，故这些 tokens 被标注为禁用 tokens。然而，尽管 SaulLM-7B-Instruct 模型使用了 21.5% 的包含相关 tokens 的可靠交互，大模型也建模了大量包含禁用 tokens 的不可靠交互。这是 SaulLM-7B-Instruct 模型一个明显的表征缺陷。类似地，BAI-LAW-13B 模型也建模了不可靠的交互。这表明这两个法律大模型都以局部方式处理了与判决相关的 tokens，而没有将犯罪行为与实体准确地匹配起来。

问题 3: 职业偏见可能影响判决结果

我们发现，法律大模型可能会使用职业信息的交互来计算置信度分数，这会导致明显的职业偏见。更有趣的是，我们发现当我们用另一种职业替换当前职业时，包含职业 tokens 的交互会发生显著变化。其他类似的属性（如年龄、性别、教育程度和婚姻状况）也可能存在类似的偏见。

图 5 显示了一个法律案例，即受害人 Andy 有不同的职业，他的财物被两名可疑男子抢劫。首先，我们发现 SaulLM-7B-Instruct 模型编码了与职业 tokens “a judge” 之间的交互作用，这增强了“抢劫”判决结果的可信度。此外，如果我们把职业 tokens “a judge” 替换为 “a volunteer”，包含职业 tokens 的交互会发生显著变化，这是导致判决结果从“抢劫”变为“未提及”的重要因素。这表明法律大模型有时存在职业偏见。类似地，两个法律模型倾向于使用特定的职业 tokens 进行判决，而非正确分析法律判决背后的决策逻辑。