本文是LLM系列文章,针对《TOMBENCH: Benchmarking Theory of Mind in Large Language Models》的翻译。
TOMBENCH:大型语言模型中的心智基准理论
摘要
心理理论(ToM)是感知和归因于自己和他人的心理状态的认知能力。最近的研究引发了一场关于大型语言模型(LLM)是否表现出某种形式的ToM的争论。然而,现有的ToM评估受到范围受限、主观判断和意外污染等挑战的阻碍,导致评估不足。为了解决这一差距,我们引入了具有三个关键特征的TOMBENCH:一个包含8项任务和31种社会认知能力的系统评估框架,一个支持自动和公正评估的多项选择题格式,以及一个从头开始建立的双语清单,以严格避免数据泄露。基于TOMBENCH,我们进行了广泛的实验,以评估10种流行LLM在任务和能力方面的ToM性能。我们发现,即使是像GPT-4这样最先进的LLM,也比人类的表现落后了10%以上,这表明LLM还没有达到人类水平的心理理论。我们与TOMBENCH的目标是对LLM的ToM能力进行高效和有效的评估,从而促进具有内在社会智能的LLM的发展。
1 引言
2 TOMBENCH框架
3 TOMBENCH构建
4 实验
5 相关工作
6 结论
我们介绍了TOMBENCH,这是LLM的第一个系统ToM基准,具有完全从头开始构建的M

TOMBENCH是一个针对大型语言模型(LLM)的心理理论(ToM)评估框架,旨在克服现有评估的局限性。通过8项任务和31种社会认知能力的多项选择题,它揭示了最先进的LLM如GPT-4在ToM方面仍远逊于人类,表明LLM的社会智能仍有待提高。TOMBENCH的目标是促进具有内在社会智能的LLM发展。
订阅专栏 解锁全文
706

被折叠的 条评论
为什么被折叠?



