本文是LLM系列文章,针对《Say What You Mean! Large Language Models Speak Too Positively about Negative Commonsense Knowledge》的翻译。
摘要
大型语言模型(llm)因其存储和利用积极知识的能力而受到广泛研究。然而,消极的知识,如“狮子不生活在海洋中”,在世界上也无处不在,但很少在文本中明确提及。LLM对负面知识了解多少?这项工作考察了LLM否定常识知识的能力。我们设计了一个约束关键字到句子生成任务(CG)和一个布尔问答任务(QA)来探测llm。我们的实验表明,LLM经常不能生成基于否定常识的有效句子,但他们可以正确回答两极是或否问题。我们将这种现象称为LLM的信念冲突。我们进一步的分析表明,统计捷径和语言建模预训练的否定报告偏差导致了这种冲突。
1 引言
2 相关工作
3 推理协议
4 LLM有负面的常识吗?
5 信念冲突分析
6 结束语
在这项研究中,我们探索并量化了LLM在生成基于他们似乎知道的负面常识的文本方面的局限性,我们将这种现象称为“信念冲突”。为了研究这一点,我们用一个约束句子生成(CG)任务和一个QA任务来研究llm。我们的实验表明,所有LLM在负面知识方面都存在信念冲突,这种冲突主要是通过关键词共现等可量化的统计捷径带来的。我们也看到,这可以通过提供更多的负面知识的上下文示例或通过使用思维链(CoT)提示方法来解释导出负面知识的显式推理过程来减少。
随着基于语言的推理研究的迅速增加,如果LLM在用负知识生成证明或推理步骤时遇到困难,就会引起关注。尽管它们在QA
本文探讨大型语言模型(LLM)在处理负面常识知识时的局限性,发现它们在生成相关句子时表现不佳,但在布尔问答中能正确回答。这种现象被称为“信念冲突”,主要由统计捷径和预训练中的否定偏差引起。通过增加负知识的上下文和使用思考链技术,可以缓解这一问题。负面知识的研究对于评估LLM的真实推理能力至关重要。
已下架不支持订阅
442

被折叠的 条评论
为什么被折叠?



