文章主要内容总结
本文聚焦于基于大型语言模型(LLMs)的角色扮演代理在模拟人类信任行为时的“信念-行为一致性”,即模型陈述的信念(“说什么”)与实际模拟行为(“做什么”)之间的匹配程度。研究以“信任游戏”(Trust Game)为测试平台,通过构建评估框架,从群体层面和个体层面系统探究了影响一致性的关键因素,并分析了研究者施加理论先验对一致性的影响。
- 核心问题:LLM角色扮演代理在生成人类行为合成数据时,其陈述的信念与实际模拟行为是否一致?
- 研究方法:使用增强版GENAGENTS人格库构建多样化虚拟角色,结合信任游戏(首玩家“信任者”决定转账金额,金额会翻倍,次玩家“受托人”决定返还金额)设计实验。从群体层面(分析人格属性与模拟行为的统计关联)和个体层面(评估模型对自身多轮行为的预测准确性)评估一致性,并测试信念引导策略(如是否提供任务背景、预测目标类型、预测时间范围)的影响。
- 主要发现:
- 无论在群体还是个体层面,LLM的陈述信念(或施加的信念)与模拟行为均存在系统性不一致,即使模型编码了合理信念,也可能无法一致应用。
- 提供信任游戏的任务背景无法提升信念-行为一致性;直接预测行为结果(如转账金额)比预测潜在心理构念(如人际信任)的排名一致性更高,但前者会高估效应量。
- 自我条件化(让模型参考自身陈述的信念)能提升部分模型(如Llama 3.1)的一致性,但施加研究者的外部先验会削弱一致性。
- 个体层面,模型对自身未来行为的预测准确性随时间推移(预测轮次