深度解析|一文吃透《生成式人工智能服务安全基本要求》

最新推荐文章于 2025-12-17 17:41:55 发布

原创最新推荐文章于 2025-12-17 17:41:55 发布 · 982 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AIGC #深度学习 #算法

互联网算法备案&大模型备案专栏收录该内容

28 篇文章

订阅专栏

🌐 第一章：政策背景与标准的定位

1.1 政策升级：从“管理暂行”到“技术标准”

随着全球生成式人工智能（AIGC）技术的快速发展，我国对于该领域的监管也持续深化。继《生成式人工智能服务管理暂行办法》确立了宏观的管理框架后，国家市场监督管理总局、国家标准化管理委员会于2025年4月25日发布了《网络安全技术生成式人工智能服务安全基本要求》（GB/T 45654—2025）国家标准。

这份国标将于2025年11月1日正式实施，它标志着AIGC合规要求从“原则性指引”迈向“可检测、可评估”的技术化、标准化阶段。

1.2 标准适用范围与核心目标

适用对象：本文件适用于服务提供者开展生成式人工智能服务相关活动，并为相关主管部门以及第三方评估机构提供参考。
重点聚焦：标准重点面向具有舆论属性或者社会动员能力的生成式人工智能服务，旨在支撑其备案管理和检测评估工作。
定义界定：生成式人工智能服务是指利用生成式人工智能技术向公众提供生成文本、图片、音频、视频等内容的服务。

🛡️ 第二章：训练数据安全要求：严防“病从口入”

训练数据是AIGC模型的基石，标准在数据来源、内容和标注环节设立了严苛的合规门槛。具体要求如下：

2.1 数据来源的“三不采”原则与“5%红线”

标准对数据源头的安全性和合法性提出了硬性要求：

采集前评估：面向拟采集的数据来源进行随机抽样安全评估，经评估数据内容中含违法不良信息情况超过5%的，不应对该数据来源进行采集。
采集后核验：数据采集后，应对每个来源的已采集数据进行随机抽样安全核验，经核验数据内容中含违法不良信息情况超过5%的，不应将该来源数据用作训练数据。
不可采集数据：不应采集他人已明确不可采集的数据，例如已通过爬虫协议（robots协议）或其他限制采集的技术手段明确表明不可采集的网页数据，或个人已拒绝授权采集的个人信息等。

2.2 数据内容管理与知识产权保护

内容过滤：在用于训练前，对全部训练数据（文本、图片、音频、视频等）进行过滤，去除其中的违法不良信息。预期结果是经人工抽检（不少于4000条），训练数据合格率不低于96% 。
知识产权：应具备训练数据知识产权管理策略和规则，不应侵害他人依法享有的知识产权，并应在用户服务协议中向使用者告知使用生成内容的知识产权相关风险。
个人信息保护：使用包含个人信息的训练数据前，应取得对应个人同意；使用包含敏感个人信息的训练数据前，应取得对应个人单独同意。

2.3 数据标注安全：双轨分工与人员考核

针对数据标注这一高风险环节，标准要求：

人员管理：标注人员需经安全培训和考核合格后方可上岗。
职责隔离：标注人员职能应至少划分为标注执行、标注审核等；在同一项标注任务中，标注执行人员和标注审核人员不应由同一人员承担。
标注规则：应对功能性数据标注和安全性数据标注分别制定标注规则。安全性标注规则应指导标注人员围绕训练数据以及生成内容的主要安全风险进行标注，宜覆盖附录A中全部31种安全风险。

🤖 第三章：模型安全要求：输出的“准确性、可靠性”门槛

模型安全是服务质量和风险控制的核心：

3.1 模型训练与环境隔离

安全优化：训练过程中，应将模型生成内容安全性作为评价指标之一。技术措施包括建设并持续更新安全风险测试题库，并利用满足4.3要求的安全性标注数据集进行安全微调。
后门检测：应定期对模型进行后门存在性检测，如发现后门风险，应及时对后门进行处置（例如模型微调、遗忘学习等）。
环境隔离：服务提供者应将模型训练环境与推理环境隔离，隔离方式可采用物理隔离或逻辑隔离，避免数据泄露等安全事件。

3.2 模型输出的“90%合格率”与拒答机制

模型输出的安全性和可控性被赋予了明确的量化指标：

安全合格率：应保证模型生成内容合格率不低于90% 。合格率是指抽样中不包含附录A所列出31种安全风险的样本所占比例。
准确性与可靠性：应采取技术措施提高生成内容响应使用者输入意图的能力，提高内容中数据及表述与科学常识及主流认知的符合程度（准确性）；提高生成内容格式框架的合理性以及有效内容的含量（可靠性）。
问题拒答：对明显偏激以及明显诱导生成违法不良信息的问题，应拒绝回答。同时，模型对应拒答测试题的拒答率不低于95%，对非拒答测试题的拒答率不高于5% 。
内容标识：图片、视频等生成内容标识，应满足国家相关规定以及标准文件要求。

⚙️ 第四章：运营与安全措施：透明度、用户责任与端侧部署

服务提供者必须履行主体责任，通过运营机制保障安全（第6章）：

4.1 服务透明度与用户权益

显著公开：以交互界面提供服务的，应在网站首页等显著位置向社会公开服务适用的人群、场合、用途等信息。
局限性告知：应在服务协议等便于查看的位置向使用者公开服务的局限性、所使用的模型/算法概要信息。
用户授权关闭：当收集使用者输入信息用于训练时，应为使用者提供关闭方式，且关闭方式应便捷，例如采用选项方式时，从服务主界面开始到达该选项所需的操作不超过4次点击。

4.2 监测、惩戒与投诉机制

输入检测与惩戒：应采取关键词、分类模型等方式对使用者输入信息进行检测。应设置并公示规则：在使用者连续多次或一天内累计输入违法不良信息达到一定次数时，采取暂停提供服务等处置措施。
监看人员：应设置监看人员，其数量应与服务规模相匹配，以及时跟踪国家政策、收集分析第三方投诉情况。
投诉举报：应提供接受公众或使用者投诉举报的途径和反馈方式，并设定处理规则和处理时限。