该文章提出EvalMORAAL框架,用于评估20个大型语言模型(LLMs)的道德对齐性,揭示模型在跨文化道德判断上的进展与区域偏见问题,同时给出改进方向。
一、文章主要内容
- 研究背景:LLMs在全球应用广泛,但训练数据存在偏见,易导致对不同文化道德规范的处理存在差异,尤其在非西方语境中可能出现误判,而此前对LLMs跨文化道德对齐的系统性评估不足。
- 评估框架与数据:构建EvalMORAAL框架,结合对数概率评分和直接评分两种方法,以及模型互评机制;基于世界价值观调查(WVS,55个国家、19个主题)和皮尤全球态度调查(PEW,39个国家、8个主题)开展评估。
- 核心发现
- 顶尖模型(如Claude-3-Opus、GPT-4o)与调查结果对齐度高,WVS上皮尔逊相关系数≈0.90,但存在明显区域差异,西方地区平均相关系数0.82,非西方地区仅0.61,差距达0.21。
- 直接评分法(基于思维链推理)在所有模型中均优于对数概率评分法,平均相关系数提升约0.10,小型模型受益更显著。
- 模型互评结果与调查对齐度相关(WVS上r=0.74,PEW上r=0.39,均p<0.001),可作为自动化质量检查依据;共检测到348处模型评分冲突,70%为二元冲突(如对同性恋、堕胎的态度分歧)。
- 局限性与未来方向:局限性包括依赖英语提示、调查数据掩盖国内多样性、缺失数据编码可能引入偏差等;未来可探索文化特定微调、多语

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



