本文是LLM系列文章,针对《A Survey on Fairness in Large Language Models》的翻译。
摘要
大型语言模型(LLM)已经显示出强大的性能和发展前景,并在现实世界中得到了广泛的部署。然而,LLM可以从未处理的训练数据中捕捉社会偏见,并将这些偏见传播到下游任务。不公平的LLM制度具有不良的社会影响和潜在的危害。在本文中,我们对LLM中的公平性的相关研究进行了全面的综述。首先,对于中等规模LLM,我们分别从内在偏差和外在偏差的角度介绍了评估指标和去偏方法。然后,对于大规模LLM,我们介绍了最近的公平性研究,包括公平性评估、偏差原因和去偏差方法。最后,我们讨论并深入了解LLM公平发展的挑战和未来方向。
1 引言
2 评估度量
3 内在去偏
4 外部去偏
5 大型LLM的公平性
6 讨论
7 结论
我们对LLM中的公平性问题进行了全面的调查。社会偏见主要来源于包含有害信息和不平衡数据的训练数据,可分为内在偏见和外在偏见。我们总结了LLM的公平性研究,包括中等规模LLM的内在和外在评估指标和去偏策略,以及大规模LLM的公正性评估、偏误原因和去偏方法。此外,我们还讨论了LLM公平性发展中的挑战以及参与者可以努力的研究方向。本次调查的结论是,当前

本文详述了大型语言模型(LLM)在训练数据中捕获社会偏见的问题,及其对下游任务的潜在影响。研究涵盖了LLM的内在和外在偏差评估,以及去偏方法。尽管取得了一些进展,但LLM的公平性仍面临挑战,需要在评估、理解和去偏方面加强工作。
订阅专栏 解锁全文
759

被折叠的 条评论
为什么被折叠?



