[论文阅读]Does RAG Introduce Unfairness in LLMs? Evaluating Fairness in Retrieval-Augmented Generation S

Does RAG Introduce Unfairness in LLMs? Evaluating Fairness in Retrieval-Augmented Generation Systems

Does RAG Introduce Unfairness in LLMs? Evaluating Fairness in Retrieval-Augmented Generation Systems - ACL Anthology

COLING 2025

图1: 检索增强生成 (RAG) 的两种场景示例:(a)RAG 提高了准确性和公平性;(b)RAG 保持了答案准确性,但没有保持公平性。 检索到的文档可能会过度突出受保护群体的內容,从而导致不平衡。

 大量研究加强了 RAG 方法在各个领域的应用,但没有工作关注 RAG 方法如何帮助这些系统更好地解决公平问题,尤其是在涉及敏感的人口统计属性(如性别、地理位置和其他因素)时。这种被忽视的差距尤其成问题,因为 RAG 方法中使用的数据源和检索机制可能会无意中引入或加剧此类偏差,如图 1 所示。

第一项系统定量地分析 RAG 方法公平性的研究;使用基于场景的问题和基准评估多种 RAG 方法(架构)的公平性,通过在真实数据集上进行大量实验来揭示效用和公平性之间的权衡;评估 RAG 管道中每个组件的公平性,表明系统的每个阶段都存在公平性问题,强调需要采用整体方法来缓解公平性。

评估框架

数据集

使用了两个数据集:TREC公平排序竞赛和BBQ数据集,来构建我们的评估基准数据集。 对于TREC公平排序竞赛2022数据集,我们主要关注WikiProject协调员搜索相关文章的任务,其中包含48个查询。 对于每个给定的查询,我们从英文维基百科中随机选择候选项目,并根据其相关性将其分为不同的组:非保护组中的相关项目、保护组中的相关项目、非保护组中的不相关项目和保护组中的不相关项目。 具体来说,不相关项目是从其他查询的相关候选中随机选择的。 我们构建了两个子基准:TREC 2022 性别,其中女性被认为是保护组,男性是非保护组;以及TREC 2022 地理位置,其中非欧洲人被指定为保护组,欧洲人作为非保护组。

对于每个数据集,我们将查询集定义为Q={q1,q2,…,qM},其中包含M个查询。 同样,项目集定义为D={d1,d2,…,dN},其中包含N个项目。 基于查询和项目之间的相关性,对于每个查询q,都有一组相关项目D_{rel}^q和一组不相关项目D_{irrel}^q。 具体来说,每个项目都用一个二元属性进行标注,指示它属于受保护组Gp还是非受保护组Gnp。 图2说明了我们提出的RAG公平性评估框架。

基于场景的问答问题构建

为了更好地研究RAG方法中的外部资源和各种组件如何无意中引入偏差,尤其是在它们不成比例地偏袒或不利于特定人口群体时,我们设计了一种名为基于场景的问答的集中式、结构化问答格式,该格式基于不同的数据集。 通过创建测试不同人口群体偏差的受控环境,此格式提供了一种有效的方法来评估RAG方法如何处理公平性。 它使我们能够探索可能出现偏差的特定案例,并分析模型在不同条件下的性能。

为了将TREC 2022数据集转换为用于我们评估的问答格式,我们使用查询及其对应的相关项目和不相关项目。 每个查询q都被转换为一个问题,相关项目和不相关项目被用作答案选项,分别表示为a_{rel}^qa_{irrel}^q。 每个项目的关联文档作为黄金标准文档,表示为dq。 该模型应该根据查询和提供的答案选项生成正确的答案。 在问题构建期间,我们根据相关性使用肯定和否定问题,例如“哪个答案与主题{q}相关/不相关?”。 对于每个问题,答案选项包括来自受保护组和非受保护组的项目,以及诸如两者都、两者都不是和信息不足以决定之类的选择。

 在基于场景的问答构建中,我们设计了四个基本场景来测试公平性。

  1.  场景S1提出一个肯定性问题,其中包含来自两组的所有相关项目,用于评估系统是否平等地识别受保护群体和非受保护群体的相关性。 
  2. 场景S2涉及一个包含所有不相关项目的肯定性问题,用于评估系统是否能够正确识别不相关性,且不会偏向任何一个群体。 
  3. 场景S3使用一个肯定性问题,其中包含来自受保护群体的相关项目和来自非受保护群体的无关项目,用于测试系统是否偏向非受保护群体,即使受保护群体提供了相关内容。
  4.  最后,场景S4提出一个肯定性问题,其中包含来自受保护群体的无关项目和来自非受保护群体的相关项目。 

具体来说,在数据构建过程中,在每个场景中,我们为每个查询随机选择来自受保护群体和非受保护群体的100对项目来构建问题和选项,每个场景最终得到4800个查询-项目对。 

RAG管道

选择了两个基线模型和四个RAG方法,如下所示:

  • 零样本仅基于语言模型生成答案,揭示了没有外部知识时的固有偏差。 
  • 朴素方法直接使用检索到的文档,无需优化,显示了未经处理的知识对结果的影响。 
  • 选择性上下文通过从检索到的文档中选择最相关的上下文来改进输入提示,测试公平性和准确性之间的平衡。 
  • SKR增强了判断组件,决定是否检索文档,从而可以分析选择性检索对公平性的影响。 FLARE在生成过程中优化检索决策,而Iter-RetGen通过利用检索增强生成和生成增强检索来增强性能。

评估指标

精确匹配EM和ROUGE-1分数来评估生成答案的准确性;使用群体差异GD和均等几率EO来评估公平性。群体差异衡量受保护群体和非受保护群体之间的性能差异:GD = Perf(Gp)- Perf(Gnp)

其中Perf(G) = G中的精确匹配数/所有群体中的精确匹配数

在S1和S2场景下使用GD;

在S3和S4场景下使用均等几率EO,因为期望S3中受保护群体的性能Perf(Gp)等于S4中非受保护群体的性能。

对于 GD 和 OD,越接近 0 的值表示公平性越高。 大于 0 的值表明存在偏向受保护群体的非公平性能,而小于 0 的值则表明存在偏向非受保护群体的非公平性能。

对于 RAG 中的检索结果,由于我们有答案的金标准文档,我们使用 K 的平均倒数排名 (MRR@K) 来衡量检索准确性。

实验

实验设置

使用我们构建的基准数据集:TREC 2022 性别和 TREC 2022 位置,评估上文中描述的各种RAG方法。

评估了另一个真实世界基准数据集的子集 BBQ

对于RAG方法,使用维基百科数据作为语料库,遵循FlashRAG中的预处理方法,该方法仅保留每个文档的前100个单词(符元)。 

对于每种RAG方法,使用原始模型的超参数。

 具体来说,对于检索器,涵盖了基于稀疏检索的BM25和基于E5-base-v2和E5-large-v2的密集检索,测试不同的检索数量:1、2和5。 对于生成器,我们在实验中使用了Meta-Llama-3-8B-Instruct和Meta-Llama-3-70B-Instruct。 除非另有说明,否则我们的结果主要基于使用E5-base-v2(检索数量为5)的检索器和使用Meta-Llama-3-8B-Instruct的生成器。 所有实验均在NVIDIA A100 GPU上进行。

结果

效用和公平性之间存在权衡。 大多数RAG方法都针对EM(效用)进行了优化,但公平性并没有相应提高。 在两个数据集和8个实验设置(每个数据集4个场景)中,EM得分最高的模型并不表现出最佳的公平性,反之亦然。 此外,我们观察到,在大多数情况下,当模型按精确匹配(EM)从最好到最差排序时,结果在不同的数据集上是一致的。 例如,在场景S2中,TREC 2022性别和TREC 2022位置数据集上,模型按EM的排序顺序相同:FLARE > 零样本 > SKR > 选择性上下文 > 朴素 > Iter-RetGen。 然而,当查看公平性指标时,并没有这种稳定性,公平性得分显示出显著的波动,这表明公平性问题在所有方法中都持续存在,并且优化效用并不能保证提高公平性。

相关场景与 不相关场景中的不同稳定性。 在两个数据集中,我们观察到,与包含不相关问题(S2)的场景相比,模型在包含相关问题(S1)的场景中在EM和公平性指标方面表现出更高的一致性。 例如,在TREC 2022性别数据集中,S1中的EM和GD变化都小于S2。 然而,公平性(GD)往往波动更大,例如S1显示模型之间存在不同的性别偏见,而S2则始终偏向女性的公平性。 当比较S3和S4时,结果并不始终表明相关设置(S3)中的公平性优于不相关设置(S4),EO(s3, s4)通常大于(绝对值)EO(s4,s3),这表明RAG方法在确定相关性时比处理不相关性时更具偏见。 此外,EO(s3, s4)在不同方法之间显示出更大的变异性——一些方法偏向女性,而另一些方法偏向男性——而EO(s4,s3)则倾向于显示出对女性的一致的积极偏见,这意味着与男性相比,女性更容易被错误地选择为相关。

此外还构建了否定性问题格式,以比较用肯定和否定形式提出相同问题的效果。

RAG组件分析

将RAG多组件管道分解,并将不同方法分为四大组件:检索器、细化器、判断器和生成器,以评估TREC 2022性别场景S1中每个组件的效用和公平性。

研究结果表明,检索器对公平性和EM的影响最大。 相反,在整个RAG系统中,细化器和判断器对公平性和EM的影响最小。 生成器会影响公平性,但对 EM 的影响有限

 EM 在左侧 Y 轴上以线表示,而公平性指标在右侧 Y 轴上以柱状图表示。 X 轴显示六种 RAG 方法。 EM 和公平性指标分别绘制在不同的刻度上,以增强趋势的可视性。

检索器分析

BM25 与 E5-base 与 E5-large 的比较。a图:基于 E5 的密集检索器通常显示更均衡的不公平比率,几种方法显示的值更接近 0。 相反,稀疏检索器 BM25 往往会引入更大的女性偏见,这表明 BM25 的稀疏检索更容易偏向女性内容。b图:E5-base 检索器模型显示出更均衡的偏差分布,其值更接近于零。 然而,E5-large检索器引入了一种更强的男性偏向性,这反映在较大的负群体差异中,其中所有使用E5-large的方法都倾向于偏向男性。 这种偏差在E5-large中也被放大,与E5-base相比,其绝对偏差值更高。 总之,所有检索器类型都存在不公平现象,每种类型对偏差的影响都不同

检索数目的比较:c图中使用E5-base,检索数目分别为1,2,5。Flare的EM和公平性保持稳定,与零样本性能相似,无论检索文档数量多少,变化都很小,这表明Flare从检索更多文档中获益甚微。 其次,对于Iter-RetGen、Naive、Selective-Context和SKR等方法,检索更多文档会显著提高公平性。 检索1个文档时对女性的高积极偏见在检索更多文档时逐渐平衡,在检索5个文档时偏差值最接近于零。 这一趋势表明,增加检索文档的数量有助于减轻性别偏见。

精炼器分析

多轮检索精炼。 基于Iter-RetGen方法架构评估了多轮检索精炼过程。 如图4所示,与Naive方法相比,Iter-RetGen对EM或公平性没有显著影响。 两种方法都显示出低偏差,但存在细微的差异:Iter-RetGen偏向女性,而Naive偏向男性。 这表明细化过程可能会随着更集中的检索迭代的传播而略微影响偏差。

具有检索结果压缩功能的细化器。 基于图4,选择性上下文模型的行为与Iter-RetGen类似,但在压缩细化后,偏差减少得更为明显。 这种偏差减少可能是由于选择性上下文模型专注于高度信息化的内容,从而限制了对性别或偏差线索的过度依赖。 两种细化过程都只引入了最小的不公平性,如果有的话,这表明虽然可能存在一些偏差,但其整体影响并不大。

判断器分析

就EM和公平性而言,FLARE和SKR的性能与朴素方法和零样本方法类似。 这表明结合判断器组件不会显著影响整体EM或公平性。 然而,当特别关注FLARE和SKR根据其内部判断器决定检索文档的情况(图5中的“judge-true”)时,明显的差异出现了。 在FLARE中,当判断器决定检索时,与SKR相比,它会产生更强的男性偏见。 这表明FLARE的检索决策导致更大的不公平性,比SKR更大地促成了整体的男性偏见。

生成器分析

在所有 RAG 方法中,80 亿和 700 亿模型之间的 EM 保持大致相同,但偏差波动很大。 700 亿参数的模型显示出持续向有利于男性的偏差转移,而 80 亿参数的模型则表现出更多样的结果,根据方法的不同,既有正偏差也有负偏差。 这突出了不同的模型大小如何影响偏差的方向和大小。 此外,更大的 700 亿参数模型可能会提高公平性,但代价是 EM 性能略有下降,这表明 EM 和公平性之间存在权衡。

增强RAG公平性

根据前面的实验,有几种减轻公平性问题的策略:使用肯定提问而不是否定性提问呢、检索更多的文档、使用更大的生成器模型后者选择E5-base作为检索器。

最直接且有效减少偏差的方法是是调整检索结果过中受保护和非受保护群体的相关性文档的百分比和排名,这就涉及到在检索过程中平衡相关性和公平性。

比如:如果RAG不成比例地偏向非受保护群体(男性),那就把受保护群体的更多相关文档放在结果的顶部来帮助实现平衡。

使用朴素方法和选择性上下文方法进行了实验,基线是检索2个文档,对比手动替换检索到的文档为黄金标准文档。调整排名顺序,优先考虑女性文档然后是男性文档。

最初,朴素方法和选择性上下文方法都对女性略微偏向(如GDS1所示的小正值)。 当优先考虑男性黄金文档时,EM值会增加,但输出结果会表现出明显的男性偏见。 相反,当女性黄金文档排名靠前时,EM值也会增加,并且偏差在很大程度上得到缓解,使不公平性更接近于零。 这与我们同时减轻不公平性和潜在地提高EM值的目標一致。

这个过程是动态的——如果优先考虑男性黄金文档(或男性MRR更高)导致对男性的偏见,我们可以通过在越来越多的检索结果中优先考虑女性黄金文档(或提高女性MRR)来减轻男性偏见的检索文档带来的不公平。

结论

探讨了RAG方法中的公平性问题,构建了TREC2022性别和位置基准数据集。

实验表明虽然RAG方法改进了EM等效用指标,但是在检索器和生成器等不同组件中仍然存在公平性问题。

可以通过调整问题格式、增加检索文档数目以及优先考虑受保护群体的相关文档来减轻偏差。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值