TOMBENCH: Benchmarking Theory of Mind in Large Language Models

828 篇文章

已下架不支持订阅

TOMBENCH是一个针对大型语言模型(LLM)的心理理论(ToM)评估框架,旨在克服现有评估的局限性。通过8项任务和31种社会认知能力的多项选择题,它揭示了最先进的LLM如GPT-4在ToM方面仍远逊于人类,表明LLM的社会智能仍有待提高。TOMBENCH的目标是促进具有内在社会智能的LLM发展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《TOMBENCH: Benchmarking Theory of Mind in Large Language Models》的翻译。

TOMBENCH:大型语言模型中的心智基准理论

摘要

心理理论(ToM)是感知和归因于自己和他人的心理状态的认知能力。最近的研究引发了一场关于大型语言模型(LLM)是否表现出某种形式的ToM的争论。然而,现有的ToM评估受到范围受限、主观判断和意外污染等挑战的阻碍,导致评估不足。为了解决这一差距,我们引入了具有三个关键特征的TOMBENCH:一个包含8项任务和31种社会认知能力的系统评估框架,一个支持自动和公正评估的多项选择题格式,以及一个从头开始建立的双语清单,以严格避免数据泄露。基于TOMBENCH,我们进行了广泛的实验,以评估10种流行LLM在任务和能力方面的ToM性能。我们发现,即使是像GPT-4这样最先进的LLM,也比人类的表现落后了10%以上,这表明LLM还没有达到人类水平的心理理论。我们与TOMBENCH的目标是对LLM的ToM能力进行高效和有效的评估,从而促进具有内在社会智能的LLM的发展。

1 引言

2 TOMBENCH框架

3 TOMBENCH构建

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值