在本章中,我们继续探讨大型语言模型(LLM)可能带来的有害影响,重点讨论有毒性(toxicity)和虚假信息(disinformation)。这些影响不仅影响用户的体验,也可能对社会产生深远的负面效应。
10.1 概述
除了前面讨论的性能差异和社会偏见外,大型语言模型可能产生的有毒性和假信息也是其潜在的有害影响。这些问题源自模型生成内容的方式,可能导致个体或群体受到伤害。需要特别注意的是,语言模型与这些伤害之间并不是直接的因果关系,而是需要从社会背景和使用环境来综合考虑其危害。
例如,像Facebook、Twitter和YouTube这样的社交平台,已经开始依赖AI来审核平台上发布的有害内容,包括仇恨言论、骚扰、暴力、假信息等。随着AI技术的应用,内容审核过程逐渐自动化,以应对庞大的平台用户量。然而,审核哪些内容是有害的仍然是一个复杂且具有政治性的决策。
10.2 有毒性
有毒性是指内容中含有粗鲁、不尊重或可能使人想要退出对话的行为。根据Borkan等人(2017)的定义,有毒性是“粗鲁、不尊重或不合理的行为,可能使某人想要离开一场对话”。
- 有毒性的难题:有毒性不仅仅是通过识别"坏词"来界定的,因为一些文本虽然包含了“坏词”,但在特定的语境中并不具备伤害性;例如医学讨论中涉及性别、性教育等话题,尽管可能包含敏感词汇,但并不应视为有毒性。相反,一些没有明显攻击性词汇的文本也可能具有有毒性,比如关于跨性别女性的贬低言论。
10.2.1 Perspective API
Google的Jigsaw部门开发的