文章目录
题目
ChatGPT 是一个知识渊博但缺乏经验的解决者:对大型语言模型中常识问题的调查
论文地址:https://aclanthology.org/2024.lrec-main.276
摘要
ChatGPT、GPT-4 等大型语言模型 (LLM) 在 NLP 领域取得了重大进展。然而,它们对常识性知识的记忆、表示和利用能力一直是 LLM 的痛点。目前尚不清楚:
- GPT 能否有效回答常识性问题?
- GPT 是否具备常识性知识?
- GPT 是否知道回答特定问题所需的底层常识性知识?
- GPT 能否有效利用常识来回答问题?
为了评估上述常识性问题,我们进行了一系列实验来评估 ChatGPT 的常识性能力,实验结果表明:
- GPT 在常识性任务中可以获得良好的 QA 准确率,但对于某些类型的知识仍存在困难。
- ChatGPT 具备知识性,可以使用知识提示准确地生成大部分常识性知识。
- 尽管 ChatGPT 拥有丰富的知识,但它是一个缺乏经验的常识性问题解决者,无法准确识别回答特定问题所需的常识性知识,即 ChatGPT 并不确切知道回答问题需要什么常识性知识。
上述发现提出了研究在 LLM 中利用常识性知识的更好机制的必要性,例如遵循指令、更好的常识性指导等。
简介
常识性知识是人类认知的一个基本方面,包括我们对世界的直觉理解和推理能力。它包括关于典型日常生活的空间、物理、社会、时间和心理方面的知识,以及对社会规范、信仰和价值观的理解,以及预测和解释人类行为的能力。常识知识对于构建能够理解和生成类似人类语言的 NLP 系统至关重要。尽管常识知识对许多任务都很重要,但在机器中获取和表示常识知识一直是 NLP 领域的长期挑战,因为常识通常是隐式的和依赖于上下文的。近年来,人们越来越关注解决 NLP 模型的常识问题,并实现更像人类的语言生成和理解。
最近,GPT-3、ChatGPT 和 GPT-4 等大型语言模型 (LLM) 在广泛的 NLP 能力方面取得了显著成功,包括推理、上下文理解和思路链推理。这些能力表明大型语言模型拥有一定程度的常识性知识。然而,常识问题通常被认为是大型语言模型的主要限制。随着这些模型变得越来越强大,它们在多大程度上能够理解和推理常识性知识仍不清楚。这引发了几个关键问题:
- GPT 能否有效回答常识性问题?
- GPT 是否具备常识性知识?
- GPT 是否知道回答特定问题所需的底层常识性知识?
- GPT 能否有效利用常识来回答问题?回答这些问题对于理解 LLM 的能力和局限性以及开发更好的方法来评估和提高其在常识任务上的表现至关重要。
在本文中,为了评估模型回答常识性问题的能力,我们使用了 11 个常识性 QA 数据集,涵盖了 8 个不同的常识领域,包括物理、社会、时间和数字推理等。首先,我们要求模型回答这些问题并评估其回答的准确性。为了评估大型语言模型是否理解回答这些问题所需的常识性知识,我们要求模型描述必要的知识并评估描述是否准确。为了评估大型语言模型是否能够回忆和描述回答问题所需的知识,我们询问模型是否知道所需的知识,并评估答案是否正确且相关。最后,为了评估模型是否可以利用常识知识进行推理,我们使用之前实验中生成的知识作为上下文,并要求模型再次回答问题。我们将他们的表现与使用黄金知识进行比较,并评估他们的推理过程是否能有效地利用已识别的知识。
我们的实验为大型语言模型的常识问题提供了深刻的见解:
- GPT 可以在常识任务中实现良好的 QA 准确性,但它们仍然难以处理某些类型的知识。
- ChatGPT 知识渊博,可以使用知识提示准确地生成大多数常识知识。
- ChatGPT 是一个缺乏经验的常识问题解决者,无法准确识别解决特定问题所需的常识知识。此外,ChatGPT 无法有效地利用上下文中的常识知识来回答特定问题。
本文的主要贡献是:
- 我们通过进行实验回答 4 个关键问题,详细研究了大型语言模型的常识能力。
- 我们设计了一系列实验来评估 ChatGPT 记忆、表示和利用常识知识的能力&#