TOMBENCH: Benchmarking Theory of Mind in Large Language Models

最新推荐文章于 2025-12-12 18:01:47 发布

UnknownBody

最新推荐文章于 2025-12-12 18:01:47 发布

阅读量256

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Evaluation 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136776696

LLM Evaluation 同时被 2 个专栏收录

97 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

828 篇文章

已下架不支持订阅

TOMBENCH是一个针对大型语言模型（LLM）的心理理论（ToM）评估框架，旨在克服现有评估的局限性。通过8项任务和31种社会认知能力的多项选择题，它揭示了最先进的LLM如GPT-4在ToM方面仍远逊于人类，表明LLM的社会智能仍有待提高。TOMBENCH的目标是促进具有内在社会智能的LLM发展。

本文是LLM系列文章，针对《TOMBENCH: Benchmarking Theory of Mind in Large Language Models》的翻译。

TOMBENCH：大型语言模型中的心智基准理论

摘要
1 引言
2 TOMBENCH框架
3 TOMBENCH构建
4 实验
5 相关工作
6 结论
局限性

摘要

心理理论（ToM）是感知和归因于自己和他人的心理状态的认知能力。最近的研究引发了一场关于大型语言模型（LLM）是否表现出某种形式的ToM的争论。然而，现有的ToM评估受到范围受限、主观判断和意外污染等挑战的阻碍，导致评估不足。为了解决这一差距，我们引入了具有三个关键特征的TOMBENCH：一个包含8项任务和31种社会认知能力的系统评估框架，一个支持自动和公正评估的多项选择题格式，以及一个从头开始建立的双语清单，以严格避免数据泄露。基于TOMBENCH，我们进行了广泛的实验，以评估10种流行LLM在任务和能力方面的ToM性能。我们发现，即使是像GPT-4这样最先进的LLM，也比人类的表现落后了10%以上，这表明LLM还没有达到人类水平的心理理论。我们与TOMBENCH的目标是对LLM的ToM能力进行高效和有效的评估，从而促进具有内在社会智能的LLM的发展。

1 引言

2 TOMBENCH框架

3 TOMBENCH构建

4 实验

5 相关工作

6 结论

我们介绍了TOMBENCH，这是LLM的第一个系统ToM基准，具有完全从头开始构建的M

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。