本文是LLM系列文章,针对《Mitigating Bias in Queer Representation within Large Language Models: A Collaborative Agent Approach》的翻译。
摘要
大型语言模型(LLMs)经常使代词使用中的偏见永久化,导致对queer个体的歪曲或排斥。本文探讨了LLM输出中有偏见的代词使用的具体问题,特别是当需要包容性语言来准确表示所有身份时,传统性别代词(“他”、“她”)的不当使用。我们引入了一个协作代理管道,旨在通过分析和优化代词的使用来减轻这些偏见,以实现包容性。我们的多代理框架包括用于偏见检测和纠正的专用代理。使用Tango数据集(一个专注于性别代词使用的基准)的实验评估表明,我们的方法显著提高了包容性代词分类,在正确反对不恰当的传统性别代词方面比GPT-4o提高了32.6个百分点(χ2=38.57,p<0.0001)。这些结果强调了代理驱动框架在增强人工智能生成内容的公平性和包容性方面的潜力,证明了它们在减少偏见和促进对社会负责的人工智能方面的有效性。
1 引言
2 相关工作
3 方法
4 结果
5 道德考虑
6 结论
本文成功开发并演示了一个协作代理框架,该框架通过改进对queer代词的处理来增强大型语言模型的包容性。Agent工作流在正确分类传统性别代词方面比基线GPT-4o提高了32.6个百分点,在识别非二元代词方面提高了2.1个百分点。这一进步代表了创建尊重和反映人类身份多样性的人工智能系统的潜力,促进了公平获取,减少了对queer个人的污名化。
协作代理框架减轻大语言模型代词偏见

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



