【论文笔记】Fostering Appropriate Reliance on Large Language Models

最新推荐文章于 2025-12-11 18:51:53 发布

原创最新推荐文章于 2025-12-11 18:51:53 发布 · 845 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #语言模型 #人工智能 #人机交互

论文笔记专栏收录该内容

20 篇文章

订阅专栏

论文信息

论文标题： Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies - CHI 25 Best Paper Award Honorable Mention
论文作者： Sunnie S. Y. Kim、Jennifer Wortman Vaughan、Q. Vera Liao、Tania Lombrozo、Olga Russakovsky
论文链接： http://arxiv.org/abs/2502.08554

研究背景与核心问题

大型语言模型（LLMs）及 LLM-infused 系统如 ChatGPT 能够生成流利且听起来极具说服力的回答，即使这些回答是错误的。这带来了用户 过度信任（overreliance） LLM输出的风险，即用户错误地依赖了不准确的信息。

本研究的核心目标是探索LLM回答中的哪些特征能够帮助用户建立 适当的信任（appropriate reliance），即在LLM回答正确时选择信任，在LLM回答错误时不信任。

研究人员通过一项探索性研究和一项大规模受控实验，确定并研究了影响用户信任度的三个关键因素：

解释（Explanations）：LLM 在给出答案后附带的支持性细节或推理过程，区别于 XAI 中的可解释性。
来源（Sources）：LLM 回答中提供的可点击的外部链接，用于验证信息。
解释中的不一致性（Inconsistencies）：解释内部或解释与答案之间存在的逻辑矛盾。

研究过程

本研究采用了一种混合方法，包括两个阶段的研究：

Study 1（初步质性试验）：有声思维研究 (Think-Aloud Study)
Study 2（大规模量化实验）：大规模受控实验 (Controlled Experiment)

在这里插入图片描述

Study 1：有声思维研究 (Think-Aloud Study)

目的： 探索人们在自然多轮交互中如何使用 LLM（这里使用 ChatGPT，含 browsing）来回答客观题，旨在发现影响“依赖（reliance）” 的具体特征和用户行为线索。

样本： 16名具有不同LLM知识和使用经验（high/low knowledge 与 high/low use）的参与者。

过程： 参与者使用 ChatGPT 完成客观问答任务，并在过程中进行有声思维（边操作边说出思考）。每人两部分任务（Base 与 Prompting），每部分 3 个题目（共 6 次作答记录/人，题型包含常识二选题、法律/健康类事实题、数学题）。参与者可与 ChatGPT 多轮交互并可查看/索引来源（但被要求不要自行在线搜索）。

发现： 参与者在判断可靠性时，重视LLM提供的解释；当发现解释中存在 不一致性 时，会将其视为不可靠的信号；同时，他们会积极寻找和使用来源来验证信息。详细如下：

explanation 很重要但有双刃性： 参与者常把详细解释当作“可靠性线索”；解释越充实他们越愿意依赖；但解释并不总是帮助识别错误（有时反而使错误更可信）。
不一致被视为不可靠信号： 参与者会注意到解释内部或跨轮回答间的不一致（例如年份或数字自相矛盾），并据此提出后续问题或怀疑该回答，从而进行更多验证。
来源有用但并非总被自动使用： 默认 ChatGPT 回答经常没有提供来源；当参与者被提示或主动要求来源并点击查看时，来源帮助他们识别并纠正 LLM 的错误（若来源是可靠且可打开）。但若来源质量差或链接失效，反而降低信心。

Study 2：大规模受控实验 (Controlled Experiment)

目的： 在控制变量的条件下，量化地检验“解释”、“来源”和“不一致性”这三个特征对用户依赖、任务准确率等指标的影响。

测试对象： 308名参与者（N=308），通过 Prolific 平台招募。每名参与者看到 8 道题（每种类型一份），每题为二选事实题（共 12 候选问题库中随机抽）。

实验设计： 采用 $2\times 2\times 2$ 被试内设计，操控三个核心特征：

变量1：LLM 答案的准确性（正确 / 错误）
变量2：解释的存在与否（存在 / 不存在）
变量3：来源的存在与否（存在 / 不存在）

在这里插入图片描述

题目来源： 作者从 National Geographic Kids 的两本书 (Weird But True…) 选题并进行了 pilot 筛选，仅保留在人群中正确率 < 50% 的问题（使问题“具有挑战性”，避免被试凭直觉判断）。

在这里插入图片描述

被测变量 DVs： 分为行为变量和主观量表。

行为变量：

Agreement（受试答案是否与 LLM 相同）
Accuracy（受试答案是否客观正确）
SourceClick（是否点击了来源）
Time（答题耗时）

主观量表：

Confidence（1–7）
JustificationQuality（对 LLM 论证质量的评分）
Actionability（回答对决策的帮助）
Followup（是否想追问）

关于不一致性的处理： 作者并未主动操纵“不一致性”，而是在生成的错误答案解释中，自然地发现了 3 个包含逻辑矛盾的案例。他们利用这些自然出现的案例，进行了额外的分析。

Study 2 结论

实验结果清晰地揭示了三个特征对用户行为的复杂影响：

解释(Explanations) 的影响

解释指的是LLM为答案提供的支持细节或理由，区别于 XAI 中如何得到这个答案的解释。

增加信任（包括过度信任）： 解释的存在会增加用户对LLM回答的依赖，无论是对正确的回答还是对错误的回答，都会增加用户的依赖程度。这表明解释会促进过度信任。
增强主观感受： 解释的存在显著提高了用户的自信心，提高了用户对LLM回答的理由质量和可操作性的评价，并降低了用户提出后续问题的可能性。
结论： 解释让用户感到满意和信任，但这种信任并不总是恰当的，它会掩盖错误信息，使用户倾向于相信LLM 。即“提供更多解释总能帮助用户”的想法，挑战了现在基本是 default 的 Chat Model 的范式。

来源(Source) 的影响

来源指的是LLM回答中提供的可点击外部链接。

促进适当信任： 来源的存在被证明是最有助于培养适当信任的因素。
- 当LLM回答正确时，来源会增加适当的信任（但效果不如解释显著）。
- 当LLM回答错误时，来源会减少过度信任。
增加验证(verify)行为： 提供来源会导致用户花费更长的任务时间，这表明用户进行了验证行为。
源点击(source-click)行为分析： 当参与者点击来源时，他们的准确率更高（尤其是在LLM给出错误答案时），并且任务时间更长。点击来源还会使他们对LLM回答的理由质量评分降低（可能是因为他们点击的原因是怀疑质量低，或点击后发现来源有问题）。

解释中的不一致性(Inconsistencies) 的影响

不一致性指的是解释中包含相互矛盾的陈述。

减少过度信任： 当错误的解释中包含不一致的陈述时，用户对该错误回答的依赖程度会显著降低，即减少了过度信任。
作为可靠性线索： 不一致性是用户可以注意到的不可靠性线索，引导他们更深入地参与和质疑LLM的回答。可以利用用户对于不一致性的当年洞察来诱导其进行相关的思考。

总结

理论贡献

本研究采用混合方法，系统地识别并量化了LLM回应的三个关键特征（解释、来源、不一致性）对用户信任的影响。
明确了解释会普遍增加信任，而来源和不一致性是减少过度信任的有效机制 。
提供了关于用户如何解释LLM解释、如何进行来源点击以及解释和来源之间交互作用的细致见解。

对 LLM / LLM-infused system 设计的建议

为了培养对LLM的适当信任，论文提出了以下有前景的设计方向：

提供来源： LLM应在回答中提供准确且相关的来源，以帮助用户进行验证，并有效减少对错误信息的过度信任。
凸显不一致性： 设计干预措施，以帮助用户注意到并思考解释中的不一致性或其他不可靠线索（我们可以利用起不一致性，而不只是将其视为负面现象）。例如，可以使用计算方法自动检测不一致性并将其高亮显示给用户。
谨慎对待解释： 虽然解释增强了用户满意度和自信心，但由于它也增加了过度信任的风险，因此在涉及高风险场景的应用中，应谨慎评估解释的使用方式。

研究人员强调，在实际部署这些方法之前，必须始终与用户进行测试和评估。

局限性

任务特定性： 本研究仅限于客观问答任务，结论可能不适用于创意写作、代码生成等其他 LLM 应用场景。
实验环境： 本文实验采用的是单轮、预设的 LLM 回答，而非真实的多轮交互，这可能影响用户的行为模式（例如，实验中用户点击来源的比例远低于“有声思维”研究）。
来源质量假设： 实验中的来源都是真实且高质量的，但现实中 LLM 经常会生成虚假或不相关的来源，这会完全颠覆来源的积极作用。