本文是LLM系列文章,针对《OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models》的翻译。
摘要
神经心理理论(N-ToM)是机器理解和跟踪他人心理状态的能力,是开发社会智能主体的关键。然而,流行的N-ToM基准有几个缺点,包括存在模棱两可和人为的叙事,缺乏个性特征和偏好,缺乏解决角色心理心理状态的问题,以及提出的问题的多样性有限。针对这些问题,我们构建了OpenToM,这是一个评估N-ToM的新基准,(1)更长、更清晰的叙事故事,(2)具有明确个性特征的角色,(3)由角色意图触发的动作,以及(4)旨在挑战LLM建模角色生理和心理世界心理状态的能力的问题。使用OpenToM,我们发现,最先进的LLM在物理世界中对心理状态的某些方面进行建模时表现出色,但在跟踪角色在心理世界中的心理状态时表现不佳。
1 引言
2 OpenToM数据集
3 实验
4 详细结果分析
5 相关工作
6 未来方向
7 结论
我们介绍了OpenToM,这是一个全面的N-ToM基准,以具有现实人物和事件的长篇叙事为特色,以及涵

OpenToM是一个评估大型语言模型(LLM)理论思维(N-ToM)能力的新基准,旨在解决现有基准的局限,如模糊叙事和有限问题多样性。实验显示,最先进的LLM在物理世界建模上表现出色,但对角色心理世界的理解有待提高。
订阅专栏 解锁全文
692

被折叠的 条评论
为什么被折叠?



