TOXIGEN: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection

Ly大可爱

已于 2023-12-01 21:59:56 修改

阅读量654

点赞数 8

分类专栏： LLM安全文章标签：人工智能语言模型

于 2023-12-01 19:49:04 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_45785795/article/details/134738102

版权

LLM安全专栏收录该内容

4 篇文章

订阅专栏

1、概况：

作者开发了一个基于演示的提示框架和一个对抗性分类器循环解码方法，使用大规模预训练语言模型GPT-3生成微妙有毒和良性文本TOXIGEN，它是一个包含274,000个关于13个少数群体的有毒和良性声明的新的大规模机器生成数据集。

2、写作动机：

检测有关少数群体的隐含毒性（例如，刻板印象、微侮辱）仍然是自然语言处理系统的一个难以实现的目标。一个关键挑战是，与显式毒性相比，隐含毒性不以亵渎或脏话为标志，有时在情感上是积极的，并且通常更难以检测或大规模收集。检测关于少数群体的微妙毒性的第二个挑战是，少数提及更容易成为社会偏见和毒性的目标。

3、方法：

为了创建TOXIGEN，作者使用了基于演示的提示方法，鼓励语言模型GPT-3生成器产生既包含有毒句子又包含良性句子的陈述，这些句子提到了少数群体，而不使用明确的语言。为了实现这一目标，作者使用基于演示的提示工程：收集示例句子，将其传递给语言模型GPT-3，然后收集后续的响应。

仅基于演示的提示一直在关于少数群体的语句中生成有毒和良性陈述，不能保证这些陈述对现有毒性检测器具有挑战性。作者开发了ALICE，一种在解码过程中使用受限波束搜索（CBS）的变体，它生成对给定预训练毒性分类器具有对抗性的语句。在CBS解码期间，ALICE在预训练语言模型（PLM）和毒性分类器（CLF）之间创建了一个对抗性游戏。在许多CBS设置中，通过在CBS期间添加约束，迫使模型在输出中包含或排除特定的单词或单词组。公式如下：