Bias and Fairness in Large Language Models: A Survey

828 篇文章

已下架不支持订阅

本文全面调查了大型语言模型(LLM)的偏见评估和缓解技术,探讨了LLM中社会偏见的概念,定义了伤害类型,并提出了公平标准。通过指标、数据集和缓解技术的分类,旨在增进对LLM偏见的理解,防止其传播。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Bias and Fairness in Large Language Models: A Survey》的翻译。

摘要

大型语言模型(llm)的快速发展使得处理、理解和生成类人文本成为可能,并越来越多地集成到触及我们社会领域的系统中。尽管取得了成功,但这些模式可以学习、延续和放大有害的社会偏见。在本文中,我们提出了对LLM偏见评估和缓解技术的全面调查。我们首先巩固、形式化并扩展了自然语言处理中的社会偏见和公平的概念,定义了伤害的不同方面,并引入了几个必要的条件来实现LLM的公平。然后,我们通过提出三种直观的分类来统一文献,其中两种用于偏见评估,即指标和数据集,另一种用于缓解。我们的第一个偏差评估指标分类法消除了指标和评估数据集之间的关系,并根据它们在模型中运行的不同层次(嵌入、概率和生成文本)组织了指标。我们用于偏见评估的第二种数据集分类法根据数据集的结构将其分类为反事实输入或提示,并确定目标危害和社会群体;我们还发布了公共可用数据集的整合,以改进访问。我们的第三种减轻偏见的技术分类法通过在预处理、训练中、处理内和后处理期间的干预对方法进行分类,并通过细化的子类别阐明了研究趋势。最后,我们确定了未来工作中存在的问题和挑战。综合广泛的近期研究,我们的目标是为现有文献提供一个明确的指导,使研究人员和从业者能够更好地理解和防止LLM中偏见的传播。

1 引言</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值