文章总结与翻译
一、文章主要内容
该研究围绕大型语言模型(LLMs)在道德困境中的决策偏好展开,通过 trolley problem(电车难题)这一经典道德哲学场景,对来自6家主流AI提供商(OpenAI、Anthropic、Google DeepMind、xAI、DeepSeek、Alibaba Cloud)的14个领先LLM(含推理增强型与通用型)进行了全面实证评估。
1. 研究设计
- 场景与框架:选取27个多样化电车难题场景(涵盖经典与“荒诞”变体,如牺牲自己、破坏《蒙娜丽莎》、涉及贿赂等),并基于10种道德哲学框架(功利主义、义务论、利他主义、公平与平等、美德伦理、家族忠诚、合法合规、安全优先、伦理利己主义、无明确框架的默认模式)设计提示词。
- 数据收集:采用“两阶段提示协议”,收集3780个二元决策(拉杆/不拉杆)及自然语言理由,以分析模型在决策果断性、解释-答案一致性、公共道德一致性、对无关道德线索敏感性四个维度的表现。
- 对比基准:将模型决策与Absurd Trolley Problems数据集的1亿+人类投票结果对比,通过KL散度衡量模型与人类道德共识的契合度。
2. 核心发现
- 模型差异显著:推理增强型模型决策更果断、理由更结构化,但未必更符合人类共识;OpenAI模型整体表现出强一致性与人类对齐性,部分模型
订阅专栏 解锁全文
473

被折叠的 条评论
为什么被折叠?



