CCD-Bench: Probing Cultural Conflict in Large Language Model Decision-Making

该文章提出了首个评估大型语言模型(LLMs)跨文化价值冲突决策能力的基准CCD-Bench,通过实验揭示了当前LLMs存在西方中心主义偏好等问题,为LLMs的文化多元性优化提供了关键参考。

一、文章主要内容总结

  1. 研究背景:现有LLMs评估基准多聚焦文化知识、单一价值预测或单维度偏见检测,未涉及多文化价值直接冲突时的决策能力,而LLMs在实际应用中常需应对此类场景(如家庭责任分配、职场沟通等)。
  2. CCD-Bench构建:包含2182个开放式困境,覆盖艺术、教育、家庭等7个领域,每个困境搭配10个匿名回答选项,对应GLOBE框架下代表62个社会的10个文化集群;采用分层拉丁方设计避免选项顺序影响,并经人类验证确保选项文化真实性。
  3. 实验与发现:评估17个主流非推理LLMs,发现三大核心规律:
    • 文化偏好失衡:LLMs显著偏好北欧(平均20.2%)和日耳曼欧洲(12.4%)文化,东欧(5.6%)和中东北非(5.8%)文化选择率极低。
    • 价值维度局限:87.9%的决策理由提及2个以上GLOBE维度,但多集中于“未来导向”和“绩效导向”,“果断性”和“性别平等”提及率均低于3%。
    • 聚类与顺序影响:LLMs的文化偏好聚类由开发者谱系决定,与地理来源无关;分层拉丁方设计有效控制了选项顺序影响(Cramér’s V<0.10)。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值