文章总结与翻译
一、主要内容
本文聚焦大型语言模型(LLMs)中的交叉偏见问题,通过共指消解任务的置信度差异展开研究。现有LLM公平性评估多集中于单维度,忽略了多歧视维度交叉产生的独特劣势模式。为此,研究团队基于WinoBias数据集构建了新基准WinoIdentity,纳入10个人口统计学属性的25个标记并与二元性别交叉,生成245,700个提示语以评估50种偏见模式。
研究提出“共指置信度差异”这一群体(非)公平性指标,从不确定性视角探究偏见,尤其关注因代表性不足导致的遗漏伤害。对5个最新LLM(mistral-7B-instruct-v0.2、mixtral-8x7B-instruct等)的评估显示,在体型、性取向、社会经济地位等属性上,置信度差异最高达40%;在反刻板场景(如将跨性别女性分配到传统男性主导职业)中,双重劣势群体的模型不确定性更强。此外,研究还发现即使是特权群体标记(如“白人”“顺性别”),共指置信度也会下降,表明LLM的出色性能更可能源于记忆而非逻辑推理,且存在价值对齐与有效性双重独立缺陷,可能加剧社会伤害。
二、创新点
- 基准构建:创建WinoIdentity基准,首次在共指消解任务中融合10个人口统计学属性与二元性别,生成大规模提示语,实现对交叉偏见的系统评估,弥补了单维度公平性评估的不足。
- 指标设计:提出“共指置信度差异”指标,从不确定性角度衡量模型对不同交叉身份的置信度差异,能更精准捕捉因代表性不足导致的遗漏伤害,相比传统基于误差的公平性指标(如Equaliz
订阅专栏 解锁全文
473

被折叠的 条评论
为什么被折叠?



