第9章大模型的有害性（上）

确实啊，对对对

于 2024-12-03 22:35:50 发布

阅读量1.6k

点赞数 27

分类专栏：大模型基础文章标签：机器学习人工智能语言模型大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_46378554/article/details/144081216

版权

9.1 引言

本章将探讨大型语言模型（LLMs）可能带来的有害性，重点讨论以下几个方面：

性能差异
社会偏见和刻板印象

在后续内容中，还会涉及其他层面的危害，如有害信息、虚假信息、隐私和安全风险、版权问题、环境影响及权力集中等。这些内容揭示了“能力越大责任越大”的原则，尤其是在AI领域的大模型应用中，我们需要平衡其强大能力与潜在危害。

本章首先回顾一些历史上成熟的危害预防机制，例如贝尔蒙特报告和IRB，以及**基因编辑（CRISPR）**等生物医学领域的经验。这些案例提供了对AI领域安全与伦理问题的宝贵经验，帮助我们构建AI系统的危害预防框架。

9.2 社会群体

在AI中，特别是大型语言模型的应用中，许多决策会依据受保护的社会群体属性（如种族、性别、宗教、年龄等）。这些群体在AI系统中的表现可能受到不同文化背景的影响，且历史上边缘化群体通常面临更大的伤害风险。大型语言模型的性能差异和社会偏见问题往往与历史上的歧视现象一致，尤其是交叉性理论指出，处于多个边缘化群体交集的个体（如黑人女性）通常面临更为严重的歧视。

9.3 量化性能差异/社会偏见在LLMs中的危害

大型语言模型通过大规模数据预训练，往往会无意中继承数据中的偏见，从而在性能和社会偏见上表现出不公平的特征。以下是通过两种测试量化这些危害的例子：

名字偏见

动机：测试模型对涉及人名的理解。

原始任务：使用SQuAD数据集进行

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

确实啊，对对对 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。