Measuring Stereotype and Deviation Biases in Large Language Models

一、文章主要内容

该研究聚焦大型语言模型(LLMs)的两类偏见——刻板印象偏见(Stereotype Bias)与偏差偏见(Deviation Bias),通过让4个先进LLM(Anthropic的claude-3.5-sonnet、OpenAI的gpt-4o-mini、Cohere的command-r-plus、Meta的llama-3.1-70b)生成个体档案,探究模型在人口统计学群体(性别、种族、年龄)与属性(政治倾向、宗教、性取向、社会经济地位、职业)间的关联,进而评估偏见表现。

1. 核心概念界定

  • 刻板印象偏见:LLM持续将特定特质与特定人口统计群体关联,如模型常将男性与“领导力”关联,女性与“社群属性”关联。
  • 偏差偏见:LLM生成内容中的人口统计分布与现实世界人口统计分布存在差异,如模型生成的新闻中少数群体比例低于人类撰写的新闻。

2. 实验设计

  • 输入方式:采用隐性提示(如通过“Jose”这类与特定种族/性别相关的名字暗示人口属性)和显性提示(如直接说明“西班牙裔男性”)。
  • 评估维度:涵盖政治倾向(自由派、保守派、中立)、宗教(基督教、佛教、印度教、犹太教、伊斯兰教、无宗教信仰)、性取向(异性恋、同性恋、双性恋)、社会经济地位(上层阶级、中产阶级、下层阶级)、职业(教师、软件工程师、设计师等),同时分析文本情感极性(-1至1的评分,越接近1越积极)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值