深度解析|一文吃透《生成式人工智能服务安全基本要求》

🌐 第一章:政策背景与标准的定位

1.1 政策升级:从“管理暂行”到“技术标准”

随着全球生成式人工智能(AIGC)技术的快速发展,我国对于该领域的监管也持续深化。继《生成式人工智能服务管理暂行办法》确立了宏观的管理框架后,国家市场监督管理总局、国家标准化管理委员会于2025年4月25日发布了《网络安全技术 生成式人工智能服务 安全基本要求》(GB/T 45654—2025)国家标准 。

这份国标将于2025年11月1日正式实施 ,它标志着AIGC合规要求从“原则性指引”迈向“可检测、可评估”的技术化、标准化阶段 。

1.2 标准适用范围与核心目标

  • 适用对象: 本文件适用于服务提供者开展生成式人工智能服务相关活动,并为相关主管部门以及第三方评估机构提供参考 。

  • 重点聚焦: 标准重点面向具有舆论属性或者社会动员能力的生成式人工智能服务 ,旨在支撑其备案管理和检测评估工作 。

  • 定义界定: 生成式人工智能服务是指利用生成式人工智能技术向公众提供生成文本、图片、音频、视频等内容的服务 。

🛡️ 第二章:训练数据安全要求:严防“病从口入”

训练数据是AIGC模型的基石,标准在数据来源、内容和标注环节设立了严苛的合规门槛。具体要求如下:

2.1 数据来源的“三不采”原则与“5%红线”

标准对数据源头的安全性和合法性提出了硬性要求:

  • 采集前评估: 面向拟采集的数据来源进行随机抽样安全评估,经评估数据内容中含违法不良信息情况超过5%的,不应对该数据来源进行采集 。

  • 采集后核验: 数据采集后,应对每个来源的已采集数据进行随机抽样安全核验,经核验数据内容中含违法不良信息情况超过5%的,不应将该来源数据用作训练数据 。

  • 不可采集数据: 不应采集他人已明确不可采集的数据,例如已通过爬虫协议(robots协议)或其他限制采集的技术手段明确表明不可采集的网页数据,或个人已拒绝授权采集的个人信息等 。

2.2 数据内容管理与知识产权保护

  • 内容过滤: 在用于训练前,对全部训练数据(文本、图片、音频、视频等)进行过滤,去除其中的违法不良信息 。预期结果是经人工抽检(不少于4000条),训练数据合格率不低于96% 。

  • 知识产权: 应具备训练数据知识产权管理策略和规则 ,不应侵害他人依法享有的知识产权 ,并应在用户服务协议中向使用者告知使用生成内容的知识产权相关风险 。

  • 个人信息保护: 使用包含个人信息的训练数据前,应取得对应个人同意 ;使用包含敏感个人信息的训练数据前,应取得对应个人单独同意 。

2.3 数据标注安全:双轨分工与人员考核

针对数据标注这一高风险环节,标准要求:

  • 人员管理: 标注人员需经安全培训和考核合格后方可上岗 。

  • 职责隔离: 标注人员职能应至少划分为标注执行、标注审核等;在同一项标注任务中,标注执行人员和标注审核人员不应由同一人员承担 。

  • 标注规则: 应对功能性数据标注和安全性数据标注分别制定标注规则 。安全性标注规则应指导标注人员围绕训练数据以及生成内容的主要安全风险进行标注,宜覆盖附录A中全部31种安全风险 。

🤖 第三章:模型安全要求:输出的“准确性、可靠性”门槛

模型安全是服务质量和风险控制的核心:

3.1 模型训练与环境隔离

  • 安全优化: 训练过程中,应将模型生成内容安全性作为评价指标之一 。技术措施包括建设并持续更新安全风险测试题库,并利用满足4.3要求的安全性标注数据集进行安全微调 。

  • 后门检测: 应定期对模型进行后门存在性检测,如发现后门风险,应及时对后门进行处置(例如模型微调、遗忘学习等) 。

  • 环境隔离: 服务提供者应将模型训练环境与推理环境隔离,隔离方式可采用物理隔离或逻辑隔离,避免数据泄露等安全事件 。

3.2 模型输出的“90%合格率”与拒答机制

模型输出的安全性和可控性被赋予了明确的量化指标:

  • 安全合格率: 应保证模型生成内容合格率不低于90% 。合格率是指抽样中不包含附录A所列出31种安全风险的样本所占比例 。

  • 准确性与可靠性: 应采取技术措施提高生成内容响应使用者输入意图的能力,提高内容中数据及表述与科学常识及主流认知的符合程度(准确性) ;提高生成内容格式框架的合理性以及有效内容的含量(可靠性) 。

  • 问题拒答: 对明显偏激以及明显诱导生成违法不良信息的问题,应拒绝回答 。同时,模型对应拒答测试题的拒答率不低于95%,对非拒答测试题的拒答率不高于5% 。

  • 内容标识: 图片、视频等生成内容标识,应满足国家相关规定以及标准文件要求 。

⚙️ 第四章:运营与安全措施:透明度、用户责任与端侧部署

服务提供者必须履行主体责任,通过运营机制保障安全(第6章):

4.1 服务透明度与用户权益

  • 显著公开: 以交互界面提供服务的,应在网站首页等显著位置向社会公开服务适用的人群、场合、用途等信息 。

  • 局限性告知: 应在服务协议等便于查看的位置向使用者公开服务的局限性、所使用的模型/算法概要信息 。

  • 用户授权关闭: 当收集使用者输入信息用于训练时,应为使用者提供关闭方式 ,且关闭方式应便捷,例如采用选项方式时,从服务主界面开始到达该选项所需的操作不超过4次点击 。

4.2 监测、惩戒与投诉机制

  • 输入检测与惩戒: 应采取关键词、分类模型等方式对使用者输入信息进行检测 。应设置并公示规则:在使用者连续多次或一天内累计输入违法不良信息达到一定次数时,采取暂停提供服务等处置措施 。

  • 监看人员: 应设置监看人员,其数量应与服务规模相匹配,以及时跟踪国家政策、收集分析第三方投诉情况 。

  • 投诉举报: 应提供接受公众或使用者投诉举报的途径和反馈方式,并设定处理规则和处理时限 。

4.3 端侧模型服务:移动应用的安全基线

针对将模型部署在移动终端(端侧)的AIGC服务,标准提出了专门的安全要求 :

  • 首次激活与更新: 应在使用者首次使用服务时通过官方途径进行激活,并在设备联网时推送安全策略更新 。

  • 端侧安全模块: 应具备端侧安全模块,利用关键词库等技术对生成内容进行安全审核 。

  • 安全日志: 端侧安全模块需收集并留存安全日志,并支持设备联网时上传日志或支持端侧本地导出日志 。

  • 定期更新: 在设备联网时,应定期更新关键词库以及相关安全配置 。

  • 模型更新机制: 发现模型安全漏洞时,应及时修复,例如推送安全补丁到端侧;模型有重大更新时,应针对长时间未更新的端侧使用者,提供多次提醒和预警 。

🚀 最后:AIGC行业的规范化发展

GB/T 45654—2025国家标准的出台,为AIGC行业定下了规范发展的技术基调。它将过去抽象的合规要求细化为可执行、可评估的工程实践,全面覆盖了从数据治理、模型部署、到移动端应用的各个环节。

对于所有AIGC服务提供者而言,当务之急是立即启动内部安全对标和整改工作,重点投入资源解决“数据源头合规(5%红线)”、“模型输出可控(90%合格率)”以及“端侧部署的监控与日志留存”三大核心挑战。只有将安全和合规内嵌为产品的底层基因,企业才能获得“持证上岗”的资格,抢占智能时代的竞争先机。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

众森企服

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值