本文是LLM系列文章,针对《OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models》的翻译。
摘要
神经心理理论(N-ToM)是机器理解和跟踪他人心理状态的能力,是开发社会智能主体的关键。然而,流行的N-ToM基准有几个缺点,包括存在模棱两可和人为的叙事,缺乏个性特征和偏好,缺乏解决角色心理心理状态的问题,以及提出的问题的多样性有限。针对这些问题,我们构建了OpenToM,这是一个评估N-ToM的新基准,(1)更长、更清晰的叙事故事,(2)具有明确个性特征的角色,(3)由角色意图触发的动作,以及(4)旨在挑战LLM建模角色生理和心理世界心理状态的能力的问题。使用OpenToM,我们发现,最先进的LLM在物理世界中对心理状态的某些方面进行建模时表现出色,但在跟踪角色在心理世界中的心理状态时表现不佳。