一、文章主要内容
该研究聚焦大型语言模型(LLMs)的两类偏见——刻板印象偏见(Stereotype Bias)与偏差偏见(Deviation Bias),通过让4个先进LLM(Anthropic的claude-3.5-sonnet、OpenAI的gpt-4o-mini、Cohere的command-r-plus、Meta的llama-3.1-70b)生成个体档案,探究模型在人口统计学群体(性别、种族、年龄)与属性(政治倾向、宗教、性取向、社会经济地位、职业)间的关联,进而评估偏见表现。
1. 核心概念界定
- 刻板印象偏见:LLM持续将特定特质与特定人口统计群体关联,如模型常将男性与“领导力”关联,女性与“社群属性”关联。
- 偏差偏见:LLM生成内容中的人口统计分布与现实世界人口统计分布存在差异,如模型生成的新闻中少数群体比例低于人类撰写的新闻。
2. 实验设计
- 输入方式:采用隐性提示(如通过“Jose”这类与特定种族/性别相关的名字暗示人口属性)和显性提示(如直接说明“西班牙裔男性”)。
- 评估维度:涵盖政治倾向(自由派、保守派、中立)、宗教(基督教、佛教、印度教、犹太教、伊斯兰教、无宗教信仰)、性取向(异性恋、同性恋、双性恋)、社会经济地位(上层阶级、中产阶级、下层阶级)、职业(教师、软件工程师、设计师等),同时分析文本情感极性(-1至1的评分,越接近1越积极)。
订阅专栏 解锁全文

245

被折叠的 条评论
为什么被折叠?



