一、文章主要内容总结
本文聚焦大型语言模型(LLMs)能否模拟人类心理这一核心问题,通过概念论证与实证研究,驳斥了“LLMs可替代人类被试用于心理学研究”的观点,具体内容如下:
1. 研究背景与争议
- LLMs(如ChatGPT、CENTAUR)在科研领域应用日益广泛,涵盖学术写作辅助、文献综述、数据标注等,甚至有研究提出其可模拟人类心理以替代心理学研究中的人类被试,例如专门针对心理反应微调的CENTAUR模型,声称能“预测和模拟任何可用自然语言表达的实验中的人类行为”。
- 反对观点指出,LLMs的核心功能是基于概率预测下一个token,无明确的意义或真理辨别机制,且存在推理失效、偏见、过度依赖导致研究者技能退化等局限。
2. 支持LLMs模拟人类心理的相关研究
部分研究显示LLMs与人类反应存在较高一致性,例如:
- Dillion等人(2023)发现GPT-3.5对464个道德场景的评分与人类评分相关系数达0.95,且在不同人口统计学群体中表现稳定;2025年其进一步研究显示,人类认为GPT-4o的道德推理在道德性、可信度和正确性上略优于美国代表性样本及伦理专家。
- Jiang等人(2025)提出的Delphi模型,基于众包道德判断训练,在复杂道德情境中表现优于GPT-4等通用模型。
- 部分“道德图灵测试”相关研究(如Aharoni等人,2024)发现GPT-4的道德评估被认为比人类更理性、可信,但AI反应因情感参与度低易被识别。
订阅专栏 解锁全文
5263

被折叠的 条评论
为什么被折叠?



