Bend-VLM:革新视觉语言模型去偏技术,实现开放场景下的精准公平性优化

近年来,视觉语言模型(VLM)凭借其跨模态理解能力,在图像检索、零样本分类、文本引导生成等领域展现出巨大潜力。然而,这些模型从训练数据中吸收的社会偏见正成为其落地应用的重大障碍。研究表明,主流VLM如CLIP在处理涉及种族和性别属性的任务时,可能将特定人群个体错误分类为非人类类别的概率高达普通人群的三倍,这种嵌入层编码的偏见若不加以干预,将在各类下游应用中放大社会不公。当前去偏方法普遍面临两大困境:微调类技术会导致灾难性遗忘,损害模型基础性能;而免训练方法则多采用静态线性变换,难以应对复杂场景下的非线性偏见关联。针对这些挑战,来自顶尖AI实验室的研究团队提出了Bend-VLM——一种革命性的非线性、免训练去偏框架,通过动态适配每个查询的去偏策略,在开放场景下实现了公平性与性能的双重突破。

【免费下载链接】clip-vit-base-patch16 【免费下载链接】clip-vit-base-patch16 项目地址: https://ai.gitcode.com/hf_mirrors/openai/clip-vit-base-patch16

视觉语言模型的偏见本质上是训练数据中伪相关性的编码产物。当模型学习"护士"概念时,若训练数据中女性护士样本占比过高,会导致"护士"嵌入与"女性"属性产生不当关联。传统去偏方法主要分为两类:微调法通过重新训练调整模型权重来消除这类关联,但这会显著削弱模型在零样本任务中的泛化能力;线性变换法则尝试通过固定的正交投影去除特定偏见维度,但忽略了偏见表现的查询依赖性和非线性特征。更关键的是,现有技术大多依赖封闭集假设,需要预先知道所有可能的查询类别,这与图像生成、开放式检索等实际应用场景严重脱节。这些局限性使得当前去偏方案难以满足真实世界对模型公平性的迫切需求。

在线开放集VLM去偏场景提出了独特的技术挑战。在该设置下,系统仅能访问预训练VLM和带保护属性标签的单模态参考图像集,且必须实时处理事先未知类别的查询。这种场景下,去偏方法需要同时克服四大难题:避免灾难性遗忘以保持基础性能;处理保护属性与查询类别的非线性、实例相关互动;适应开放集查询的动态性;满足在线应用的计算效率要求。例如,为"护士"查询消除性别偏见所需的变换,可能与"医生"查询的最优变换截然不同,静态方法根本无法应对这种差异性。这些挑战共同构成了开放场景下VLM去偏的技术瓶颈。

Bend-VLM通过创新的两阶段处理框架,彻底重构了VLM去偏的技术范式。该方法在保持VLM权重冻结的前提下,实现了针对每个查询的动态非线性去偏。第一阶段"属性子空间正交化"利用小语言模型生成属性增强查询(如将"护士照片"扩展为"男性护士照片"、"女性护士照片"等变体),通过分析这些变体的嵌入差异,定位查询特定的偏见方向,随后将原始查询嵌入投影到与这些方向正交的子空间。第二阶段"参考集均衡化"则从参考图像集中检索与查询最相关的样本,按保护属性分组后,通过约束优化找到同时均衡接近各组样本的嵌入点。这种双阶段设计既捕捉了偏见的局部非线性特征,又利用参考数据实现了统计意义上的公平性校准。

该框架的核心创新点体现在三个方面:首先,提出了首个真正意义上的测试时VLM去偏方案,完全免除微调需求;其次,开发了动态局部属性子空间发现技术,能在推理时为每个查询实时定制去偏变换;最后,首创参考数据集均衡化方法,通过跨属性相似性约束进一步提升去偏效果。这种设计使Bend-VLM能够处理开放集查询,无需预先知晓类别信息,完美适配在线应用场景。

为验证Bend-VLM的实际效果,研究团队在三个基准数据集上进行了全面评估:CelebA(含性别标签)、FairFace和UTKFace(均含性别与种族标签)。实验采用CLIP-ViT-Base-Patch16和CLIP-ViT-Large-Patch14作为基础模型,对比了包括原始CLIP、正交投影法、Orth-Cal方法以及DebiasCLIP微调模型在内的主流方案。评估指标包括属性分布的KL散度、最大偏斜度以及最差组AUC,全面衡量去偏效果与性能保持能力。

在零样本分类任务中,Bend-VLM展现出卓越的公平性-性能平衡能力。以CelebA数据集的发色分类任务为例,该方法将最差组AUC保持在接近原始模型的水平(仅下降0.3%),同时将最大偏斜度降低62%,KL散度减少58%。相比之下,DebiasCLIP虽然实现了一定程度的去偏,但导致AUC下降超过8%;而Orth-Cal方法在降低偏斜度方面仅达到Bend-VLM效果的53%。这一结果证明Bend-VLM成功解决了公平性与性能之间的长期矛盾。

针对成见词汇的偏见缓解实验更凸显了Bend-VLM的优势。在处理"不良少年"、"暴力分子"等具有强烈刻板印象的查询时,该方法在UTKFace数据集上实现了种族偏见指标平均降低71%,性别偏见降低68%,且所有场景下均优于对比方法。特别值得注意的是,其他去偏技术在某些情况下会出现偏见反弹(即比原始模型表现更差),而Bend-VLM在所有测试中均保持稳定改善,展现出优异的鲁棒性。

交叉属性去偏实验揭示了一个重要发现:当针对性别属性去偏时,传统方法普遍导致种族偏见上升(平均增加19%),呈现典型的"打地鼠"问题——消除一种偏见却放大了另一种。而Bend-VLM的第二阶段单独使用时完全避免了这种副作用,表明该框架的模块化设计为解决交叉偏见提供了新思路。这一发现对开发多属性公平性模型具有重要指导意义。

在图像描述任务中,Bend-VLM同样表现出色。研究团队对ClipCap模型生成的标题进行去偏处理,结果显示:在包含20张高偏见图像的测试集上,经Bend-VLM处理后,有害标题比例从原始的45%降至15%;在1600张包含负面词汇的描述样本中,各个人种群体的负面情感得分差异缩小了63%,且平均负面情感强度降低27%。这些结果证明Bend-VLM能够有效减轻生成式任务中的偏见表达,为构建更负责任的AI内容生成系统提供了关键技术支撑。

尽管Bend-VLM取得了显著突破,仍存在值得改进的方向。当前框架依赖带保护属性标签的参考数据集,在标签获取困难的场景下应用受限;使用7B参数语言模型进行查询增强可能带来计算负担;评估数据集中的二元性别标签也未能覆盖更广泛的性别认同。未来研究将探索无监督参考集构建、轻量级增强模型设计以及更细粒度的属性表示,进一步拓展方法的适用性和包容性。

【免费下载链接】clip-vit-base-patch16 【免费下载链接】clip-vit-base-patch16 项目地址: https://ai.gitcode.com/hf_mirrors/openai/clip-vit-base-patch16

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值