Examining Performance of 11 State-of-the-Art models vs. Children Aged 7-10 on Advanced Tests

828 篇文章

已下架不支持订阅

本文研究了11种先进的人工智能语言模型与7-10岁儿童在理解意图和信念(心理理论ToM)方面的表现。结果显示,经过指令调整的LLM,特别是GPT家族的模型,往往优于其他模型和儿童。尽管大多数基础模型在ToM任务上挣扎,但指令调整似乎促进了与对话者和上下文合作交流的能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章, 针对《Theory of Mind in Large Language Models: Examining Performance of 11 State-of-the-Art models vs. Children Aged 7-10 on Advanced Tests》的翻译。

大型语言模型中的心理理论:考察11个最先进模型与7-10岁儿童在高级测试中的表现

摘要

我们应该在多大程度上将认知能力归因于大型语言模型(LLM),例如对意图和信念进行推理的能力,即心理理论(ToM)?在这里,我们通过以下方式增加了这场新出现的辩论:(i)在占主导地位的错误信念范式之外,测试11个基于基础和指令的LLM与ToM相关的能力,包括非语言使用和递归意向性;(ii)使用标准化测试的新改写版本来衡量LLM的稳健性;(iii)开放式和封闭式问题的提示和评分;以及(iv)将LLM的表现与7-10岁儿童在相同任务中的表现进行比较。我们发现,GPT家族的指令调整LLM优于其他模型,通常也优于儿童。BaseLLM大多无法解决ToM任务,即使有专门的提示。我们认为,语言和ToM的相互关联的进化和发展可能有助于解释指令调整增加了什么:奖励考虑对话者和上下文的合作交流。最后,我们对LLM中的ToM提出了一个细致入微的观点。

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值