9.1 引言
本章将探讨大型语言模型(LLMs)可能带来的有害性,重点讨论以下几个方面:
- 性能差异
- 社会偏见和刻板印象
在后续内容中,还会涉及其他层面的危害,如有害信息、虚假信息、隐私和安全风险、版权问题、环境影响及权力集中等。这些内容揭示了“能力越大责任越大”的原则,尤其是在AI领域的大模型应用中,我们需要平衡其强大能力与潜在危害。
本章首先回顾一些历史上成熟的危害预防机制,例如贝尔蒙特报告和IRB,以及**基因编辑(CRISPR)**等生物医学领域的经验。这些案例提供了对AI领域安全与伦理问题的宝贵经验,帮助我们构建AI系统的危害预防框架。
9.2 社会群体
在AI中,特别是大型语言模型的应用中,许多决策会依据受保护的社会群体属性(如种族、性别、宗教、年龄等)。这些群体在AI系统中的表现可能受到不同文化背景的影响,且历史上边缘化群体通常面临更大的伤害风险。大型语言模型的性能差异和社会偏见问题往往与历史上的歧视现象一致,尤其是交叉性理论指出,处于多个边缘化群体交集的个体(如黑人女性)通常面临更为严重的歧视。
9.3 量化性能差异/社会偏见在LLMs中的危害
大型语言模型通过大规模数据预训练,往往会无意中继承数据中的偏见,从而在性能和社会偏见上表现出不公平的特征。以下是通过两种测试量化这些危害的例子:
名字偏见
动机:测试模型对涉及人名的理解。
- 原始任务:使用SQuAD数据集进行