本文是LLM系列文章,针对《TOMBENCH: Benchmarking Theory of Mind in Large Language Models》的翻译。
TOMBENCH:大型语言模型中的心智基准理论
摘要
心理理论(ToM)是感知和归因于自己和他人的心理状态的认知能力。最近的研究引发了一场关于大型语言模型(LLM)是否表现出某种形式的ToM的争论。然而,现有的ToM评估受到范围受限、主观判断和意外污染等挑战的阻碍,导致评估不足。为了解决这一差距,我们引入了具有三个关键特征的TOMBENCH:一个包含8项任务和31种社会认知能力的系统评估框架,一个支持自动和公正评估的多项选择题格式,以及一个从头开始建立的双语清单,以严格避免数据泄露。基于TOMBENCH,我们进行了广泛的实验,以评估10种流行LLM在任务和能力方面的ToM性能。我们发现,即使是像GPT-4这样最先进的LLM,也比人类的表现落后了10%以上,这表明LLM还没有达到人类水平的心理理论。我们与TOMBENCH的目标是对LLM的ToM能力进行高效和有效的评估,从而促进具有内在社会智能的LLM的发展。