“Pull or Not to Pull?”: Investigating Moral Biases in Leading Large Language Models Across Ethical

文章总结与翻译

一、文章主要内容

该研究围绕大型语言模型(LLMs)在道德困境中的决策偏好展开,通过 trolley problem(电车难题)这一经典道德哲学场景,对来自6家主流AI提供商(OpenAI、Anthropic、Google DeepMind、xAI、DeepSeek、Alibaba Cloud)的14个领先LLM(含推理增强型与通用型)进行了全面实证评估。

1. 研究设计

  • 场景与框架:选取27个多样化电车难题场景(涵盖经典与“荒诞”变体,如牺牲自己、破坏《蒙娜丽莎》、涉及贿赂等),并基于10种道德哲学框架(功利主义、义务论、利他主义、公平与平等、美德伦理、家族忠诚、合法合规、安全优先、伦理利己主义、无明确框架的默认模式)设计提示词。
  • 数据收集:采用“两阶段提示协议”,收集3780个二元决策(拉杆/不拉杆)及自然语言理由,以分析模型在决策果断性、解释-答案一致性、公共道德一致性、对无关道德线索敏感性四个维度的表现。
  • 对比基准:将模型决策与Absurd Trolley Problems数据集的1亿+人类投票结果对比,通过KL散度衡量模型与人类道德共识的契合度。

2. 核心发现

  • 模型差异显著:推理增强型模型决策更果断、理由更结构化,但未必更符合人类共识;OpenAI模型整体表现出强一致性与人类对齐性,部分模型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值