本文是LLM系列文章,针对《A Taxonomy of Stereotype Content in Large Language Models》的翻译。
摘要
本研究介绍了当代大型语言模型 (LLM) 中刻板印象内容的分类法。我们提示 ChatGPT 3.5、Llama 3 和 Mixtral 8x7B 这三个功能强大且广泛使用的 LLM,以了解与 87 个社会类别(例如,性别、种族、职业)相关的特征。我们确定了 14 个刻板印象维度(例如,道德、能力、健康、信仰、情感),占 LLM 刻板印象关联的 ~90%。Warmth 和 Competence 分面是最常见的内容,但所有其他维度都非常普遍。 LLM 中的刻板印象更为积极(与人类相比),但类别和维度之间存在显着差异。最后,分类法预测了 LLM 对社会类别的内部评估(例如,这些类别的正面/负面表现),支持多维分类法对描述 LLM 刻板印象的相关性。 我们的研究结果表明,高维人类刻板印象反映在 LLM 中,必须在 AI 审计和消除偏见中考虑,以最大限度地减少依赖 LLM 中低维偏见观点造成的未识别伤害。
人类创造并将彼此置于社会类别中(例如,在性别、种族、年龄、职业方面),以简化和驾驭社会世界,通常是通过可能有害的刻板印象 (1)。刻板印象在这里被定义为,一般来说,心理学模型被定义为与社会类别相关的特征(例如,通过明确的信念、隐含的联想,2)。这些刻板印象在内容(即它们的内容)和效价(即它们的积极或消极程度)以及其他属性方面可能会有所不同 (3)。最近的模型使用文本分析来描述人类调查数据中突出社会类别的刻板印象的多样性 (4)。然而,对于当代人工智能 (AI) 大型语言模型 (LLM),尚未系统地描述刻板印象内容。对 AI 偏见的有效审计和潜在的消除偏见的解决方案首先需要对与 LLM 中的社会类别相关的各种刻板印象进行更全面的分类。因此,本文使用多方法方法,包括聚类和字典分析等方法,
订阅专栏 解锁全文
546

被折叠的 条评论
为什么被折叠?



