EvalMORAAL: Interpretable Chain-of-Thought and LLM-as-Judge Evaluation for Moral Alignment in

该文章提出EvalMORAAL框架,用于评估20个大型语言模型(LLMs)的道德对齐性,揭示模型在跨文化道德判断上的进展与区域偏见问题,同时给出改进方向。

一、文章主要内容

  1. 研究背景:LLMs在全球应用广泛,但训练数据存在偏见,易导致对不同文化道德规范的处理存在差异,尤其在非西方语境中可能出现误判,而此前对LLMs跨文化道德对齐的系统性评估不足。
  2. 评估框架与数据:构建EvalMORAAL框架,结合对数概率评分和直接评分两种方法,以及模型互评机制;基于世界价值观调查(WVS,55个国家、19个主题)和皮尤全球态度调查(PEW,39个国家、8个主题)开展评估。
  3. 核心发现
    • 顶尖模型(如Claude-3-Opus、GPT-4o)与调查结果对齐度高,WVS上皮尔逊相关系数≈0.90,但存在明显区域差异,西方地区平均相关系数0.82,非西方地区仅0.61,差距达0.21。
    • 直接评分法(基于思维链推理)在所有模型中均优于对数概率评分法,平均相关系数提升约0.10,小型模型受益更显著。
    • 模型互评结果与调查对齐度相关(WVS上r=0.74,PEW上r=0.39,均p<0.001),可作为自动化质量检查依据;共检测到348处模型评分冲突,70%为二元冲突(如对同性恋、堕胎的态度分歧)。
  4. 局限性与未来方向:局限性包括依赖英语提示、调查数据掩盖国内多样性、缺失数据编码可能引入偏差等;未来可探索文化特定微调、多语
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值