Do Role-Playing Agents Practice What They Preach? BeliefBehavior Consistency in LLM-Based Simulation

文章主要内容总结

本文聚焦于基于大型语言模型(LLMs)的角色扮演代理在模拟人类信任行为时的“信念-行为一致性”,即模型陈述的信念(“说什么”)与实际模拟行为(“做什么”)之间的匹配程度。研究以“信任游戏”(Trust Game)为测试平台,通过构建评估框架,从群体层面和个体层面系统探究了影响一致性的关键因素,并分析了研究者施加理论先验对一致性的影响。

  • 核心问题:LLM角色扮演代理在生成人类行为合成数据时,其陈述的信念与实际模拟行为是否一致?
  • 研究方法:使用增强版GENAGENTS人格库构建多样化虚拟角色,结合信任游戏(首玩家“信任者”决定转账金额,金额会翻倍,次玩家“受托人”决定返还金额)设计实验。从群体层面(分析人格属性与模拟行为的统计关联)和个体层面(评估模型对自身多轮行为的预测准确性)评估一致性,并测试信念引导策略(如是否提供任务背景、预测目标类型、预测时间范围)的影响。
  • 主要发现
    • 无论在群体还是个体层面,LLM的陈述信念(或施加的信念)与模拟行为均存在系统性不一致,即使模型编码了合理信念,也可能无法一致应用。
    • 提供信任游戏的任务背景无法提升信念-行为一致性;直接预测行为结果(如转账金额)比预测潜在心理构念(如人际信任)的排名一致性更高,但前者会高估效应量。
    • 自我条件化(让模型参考自身陈述的信念)能提升部分模型(如Llama 3.1)的一致性,但施加研究者的外部先验会削弱一致性。
    • 个体层面,模型对自身未来行为的预测准确性随时间推移(预测轮次
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值