了解如何在您的人工智能应用程序中构建审查机制。
1 综述
审查端点是一个工具,您可以使用它来检查文本是否有潜在的危害。开发人员可以使用它来识别可能有害的内容并采取行动,例如通过过滤它。
模型进行了以下分类:
类别 | 描述 |
---|---|
仇恨 | 表达、煽动或宣扬基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓的仇恨的内容。针对非受保护群体(如国际象棋玩家)的仇恨内容是骚扰。 |
仇恨/恐吓 | 仇恨内容还包括基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓对目标群体的暴力或严重伤害。 |
骚扰 | 表达、煽动或宣扬针对任何目标的骚扰语言的内容。 |
骚扰/恐吓 | 骚扰内容,包括对任何目标的暴力或严重伤害 |
自残 | 宣扬、鼓励或描绘自残行为的内容,如自杀、自残和饮食失调。 |
自残 | 宣扬、鼓励或描绘自残行为的内容,如自杀、自残和饮食失调。 |
自残/意图 | 讲话者表示他们正在从事或打算从事自残行为的内容,如自杀、自残和饮食失调。 |
自残/指导 | 鼓励自残行为的内容,如自杀、自残和饮食失调,或就如何实施这些行为提供指导或建议的内容 |
性 | 旨在引起性兴奋的内容,如对性活动的描述,或促进性服务的内容(不包括性教育和健康)。 |
性/未成年 | 包含18岁以下未成年人的色情内容。 |
暴力 | 描述死亡、暴力或身体伤害的内容。 |
暴力/图片 | 详细描绘死亡、暴力或身体伤害的内容。 |
审查端点对大多少开发者来讲是免费的。为寻求更高的准确率,将长文本分割为小块,且每一个少于2000个字符。 |
2 快速开始
为获得一块文本的归类,下面的代码片断演示怎样请求审查机制端点:
curl https://api.openai.com/v1/moderations \
-X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{"input": "Sample text goes here"}'
下面是一个端点输出的例子。返回以下字段:
- flagged: 如果模型归类的内容存在潜在的危害将为true;否则为false
- categories: 包含一个每个类别违规标记的字典。对于每一个类别,如果相应的类型违规则为true,否则为false
- category_scores: 包含模型输出的每个类别原始分数的字典,表示模型对输入违反OpenAI对该类别的策略的置信度。该值在0到1之间,值越大表示置信度越高。分数不应该被解释为概率
{
"id": "modr-XXXXX",
"model": "text-moderation-007",
"results": [
{
"flagged": true,
"categories": {
"sexual": false,
"hate": false,
"harassment": false,
"self-harm": false,
"sexual/minors": false,
"hate/threatening": false,
"violence/graphic": false,
"self-harm/intent": false,
"self-harm/instructions": false,
"harassment/threatening": true,
"violence": true
},
"category_scores": {
"sexual": 1.2282071e-6,
"hate": 0.010696256,
"harassment": 0.29842457,
"self-harm": 1.5236925e-8,
"sexual/minors": 5.7246268e-8,
"hate/threatening": 0.0060676364,
"violence/graphic": 4.435014e-6,
"self-harm/intent": 8.098441e-10,
"self-harm/instructions": 2.8498655e-11,
"harassment/threatening": 0.63055265,
"violence": 0.99011886
}
}
]
}