十三、OpenAI之审查机制

最新推荐文章于 2025-04-11 00:15:00 发布

挑大梁

最新推荐文章于 2025-04-11 00:15:00 发布

阅读量719

点赞数 9

分类专栏： # 大模型入门文章标签：人工智能语言模型机器学习

本文链接：https://blog.youkuaiyun.com/jacbo/article/details/139386453

版权

大模型入门专栏收录该内容

16 篇文章

订阅专栏

了解如何在您的人工智能应用程序中构建审查机制。

1 综述

审查端点是一个工具，您可以使用它来检查文本是否有潜在的危害。开发人员可以使用它来识别可能有害的内容并采取行动，例如通过过滤它。
模型进行了以下分类：

类别	描述
仇恨	表达、煽动或宣扬基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓的仇恨的内容。针对非受保护群体(如国际象棋玩家)的仇恨内容是骚扰。
仇恨/恐吓	仇恨内容还包括基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓对目标群体的暴力或严重伤害。
骚扰	表达、煽动或宣扬针对任何目标的骚扰语言的内容。
骚扰/恐吓	骚扰内容，包括对任何目标的暴力或严重伤害
自残	宣扬、鼓励或描绘自残行为的内容，如自杀、自残和饮食失调。
自残	宣扬、鼓励或描绘自残行为的内容，如自杀、自残和饮食失调。
自残/意图	讲话者表示他们正在从事或打算从事自残行为的内容，如自杀、自残和饮食失调。
自残/指导	鼓励自残行为的内容，如自杀、自残和饮食失调，或就如何实施这些行为提供指导或建议的内容
性	旨在引起性兴奋的内容，如对性活动的描述，或促进性服务的内容(不包括性教育和健康)。
性/未成年	包含18岁以下未成年人的色情内容。
暴力	描述死亡、暴力或身体伤害的内容。
暴力/图片	详细描绘死亡、暴力或身体伤害的内容。
审查端点对大多少开发者来讲是免费的。为寻求更高的准确率，将长文本分割为小块，且每一个少于2000个字符。

2 快速开始

为获得一块文本的归类，下面的代码片断演示怎样请求审查机制端点：

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Sample text goes here"}'

下面是一个端点输出的例子。返回以下字段：

flagged: 如果模型归类的内容存在潜在的危害将为true;否则为false
categories: 包含一个每个类别违规标记的字典。对于每一个类别，如果相应的类型违规则为true，否则为false
category_scores: 包含模型输出的每个类别原始分数的字典，表示模型对输入违反OpenAI对该类别的策略的置信度。该值在0到1之间，值越大表示置信度越高。分数不应该被解释为概率

{
    "id": "modr-XXXXX",
    "model": "text-moderation-007",
    "results": [
        {
            "flagged": true,
            "categories": {
                "sexual": false,
                "hate": false,
                "harassment": false,
                "self-harm": false,
                "sexual/minors": false,
                "hate/threatening": false,
                "violence/graphic": false,
                "self-harm/intent": false,
                "self-harm/instructions": false,
                "harassment/threatening": true,
                "violence": true
            },
            "category_scores": {
                "sexual": 1.2282071e-6,
                "hate": 0.010696256,
                "harassment": 0.29842457,
                "self-harm": 1.5236925e-8,
                "sexual/minors": 5.7246268e-8,
                "hate/threatening": 0.0060676364,
                "violence/graphic": 4.435014e-6,
                "self-harm/intent": 8.098441e-10,
                "self-harm/instructions": 2.8498655e-11,
                "harassment/threatening": 0.63055265,
                "violence": 0.99011886
            }
        }
    ]
}