本文是LLM系列文章, 针对《Theory of Mind in Large Language Models: Examining Performance of 11 State-of-the-Art models vs. Children Aged 7-10 on Advanced Tests》的翻译。
摘要
我们应该在多大程度上将认知能力归因于大型语言模型(LLM),例如对意图和信念进行推理的能力,即心理理论(ToM)?在这里,我们通过以下方式增加了这场新出现的辩论:(i)在占主导地位的错误信念范式之外,测试11个基于基础和指令的LLM与ToM相关的能力,包括非语言使用和递归意向性;(ii)使用标准化测试的新改写版本来衡量LLM的稳健性;(iii)开放式和封闭式问题的提示和评分;以及(iv)将LLM的表现与7-10岁儿童在相同任务中的表现进行比较。我们发现,GPT家族的指令调整LLM优于其他模型,通常也优于儿童。BaseLLM大多无法解决ToM任务,即使有专门的提示。我们认为,语言和ToM的相互关联的进化和发展可能有助于解释指令调整增加了什么:奖励考虑对话者和上下文的合作交流。最后,我们对LLM中的ToM提出了一个细致入微的观点。