OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of LLMs

最新推荐文章于 2025-11-25 00:05:27 发布

UnknownBody

最新推荐文章于 2025-11-25 00:05:27 发布

阅读量108

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Evaluation 文章标签：语言模型自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136912069

LLM Evaluation 同时被 2 个专栏收录

97 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

828 篇文章

已下架不支持订阅

OpenToM是一个评估大型语言模型（LLM）理论思维（N-ToM）能力的新基准，旨在解决现有基准的局限，如模糊叙事和有限问题多样性。实验显示，最先进的LLM在物理世界建模上表现出色，但对角色心理世界的理解有待提高。

本文是LLM系列文章，针对《OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models》的翻译。

OpenToM:一个评估大型语言模型思维推理能力理论的综合基准

摘要
1 引言
2 OpenToM数据集
3 实验
4 详细结果分析
5 相关工作
6 未来方向
7 结论
8 局限性

摘要

神经心理理论（N-ToM）是机器理解和跟踪他人心理状态的能力，是开发社会智能主体的关键。然而，流行的N-ToM基准有几个缺点，包括存在模棱两可和人为的叙事，缺乏个性特征和偏好，缺乏解决角色心理心理状态的问题，以及提出的问题的多样性有限。针对这些问题，我们构建了OpenToM，这是一个评估N-ToM的新基准，（1）更长、更清晰的叙事故事，（2）具有明确个性特征的角色，（3）由角色意图触发的动作，以及（4）旨在挑战LLM建模角色生理和心理世界心理状态的能力的问题。使用OpenToM，我们发现，最先进的LLM在物理世界中对心理状态的某些方面进行建模时表现出色，但在跟踪角色在心理世界中的心理状态时表现不佳。

1 引言

2 OpenToM数据集

3 实验

4 详细结果分析

5 相关工作

6 未来方向

7 结论

我们介绍了OpenToM，这是一个全面的N-ToM基准，以具有现实人物和事件的长篇叙事为特色，以及涵

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。