Say What You Mean! Large Language Models Speak Too Positively about Negative Commonsense Knowledge

最新推荐文章于 2025-11-26 15:49:07 发布

UnknownBody

最新推荐文章于 2025-11-26 15:49:07 发布

阅读量104

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/133853137

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文探讨大型语言模型（LLM）在处理负面常识知识时的局限性，发现它们在生成相关句子时表现不佳，但在布尔问答中能正确回答。这种现象被称为“信念冲突”，主要由统计捷径和预训练中的否定偏差引起。通过增加负知识的上下文和使用思考链技术，可以缓解这一问题。负面知识的研究对于评估LLM的真实推理能力至关重要。

本文是LLM系列文章，针对《Say What You Mean! Large Language Models Speak Too Positively about Negative Commonsense Knowledge》的翻译。

摘要

大型语言模型(llm)因其存储和利用积极知识的能力而受到广泛研究。然而，消极的知识，如“狮子不生活在海洋中”，在世界上也无处不在，但很少在文本中明确提及。LLM对负面知识了解多少?这项工作考察了LLM否定常识知识的能力。我们设计了一个约束关键字到句子生成任务(CG)和一个布尔问答任务(QA)来探测llm。我们的实验表明，LLM经常不能生成基于否定常识的有效句子，但他们可以正确回答两极是或否问题。我们将这种现象称为LLM的信念冲突。我们进一步的分析表明，统计捷径和语言建模预训练的否定报告偏差导致了这种冲突。

1 引言

2 相关工作

3 推理协议

4 LLM有负面的常识吗？

5 信念冲突分析

6 结束语

在这项研究中，我们探索并量化了LLM在生成基于他们似乎知道的负面常识的文本方面的局限性，我们将这种现象称为“信念冲突”。为了研究这一点，我们用一个约束句子生成(CG)任务和一个QA任务来研究llm。我们的实验表明，所有LLM在负面知识方面都存在信念冲突，这种冲突主要是通过关键词共现等可量化的统计捷径带来的。我们也看到，这可以通过提供更多的负面知识的上下文示例或通过使用思维链(CoT)提示方法来解释导出负面知识的显式推理过程来减少。
随着基于语言的推理研究的迅速增加，如果LLM在用负知识生成证明或推理步骤时遇到困难，就会引起关注。尽管它们在QA

了解本专栏