作为大模型备案中被重点考察的环节,申请单位应格外注意语料来源合法性,确保达到相关要求。其中,一些细节如下所示:
语料来源
1.合法合规性:语料获取途径必须完全符合法律规定,坚决不能侵害他人合法权益,严禁使用依照我国网络安全法规被禁止的信息来训练模型。对于特定来源的语料,在采集的前后阶段都要展开全面的安全评估。
2.多元丰富性:尽可能拓展语料来源的丰富度,保证每种语言和类型的语料都涵盖多个出处,同时合理规划境内和境外语料的比例。
3.可追溯性:使用开源语料,一定要有对应的开源授权文件;自采语料则需保留详实的采集记录,并且避开那些明确禁止采集的内容。
4.商业语料规范:若使用商业语料,必须签订具有法律效力的交易合同或合作协议,同时仔细审查交易方或合作方所提供的语料、相关承诺及材料。
质量把控
注:以下信息仅供参考。不同省份可能会在实操中有所不同,也可能会更新标注。具体情况请提前咨询。
1.不良信息管控:倘若语料中违法不良信息的占比超过 5%,则不应采集或使用该部分语料。
2.抽检达标率:在采用人工抽检、关键词、分类模型等手段进行评估时,要确保抽样合格率达到标准。例如,人工抽检时从所有语料中随机抽取至少 4000 条,合格率不得低于 96%;利用关键词、分类模型等技术抽检时,从全部语料里随机抽取不少于总量 10% 的样本,合格率不得低于 98%。
知识产权
需指定专人负责知识产权相关事务,制定管理策略,精准识别语料中潜在的知识产权侵权风险,绝不能使用存在侵权问题的语料进行模型训练。
个人信息保护
一旦使用包含个人信息的语料,必须事先获得个人信息主体的明确授权同意,或者满足其他合法使用的条件。
标注严谨规范
1.人员管理:对标注人员开展安全培训与考核,依据能力划分等级,并明确标注规则。标注人员必须具备上岗资格,同时要有定期重新培训考核机制,必要时能够暂停或取消其标注上岗资格。
2.内容抽检:对标注语料进行严格抽检,功能性标注要保证内容准确、客观;安全性标注要求每条标注语料至少经过一名审核人员审核通过,建议针对安全内容至少进行一次复审 。
安全制度
除落实以上涉及的各环节外,还应制定对应的规章制度,形成完善的安全制度体系,做到有理可依,也方便在发起大模型备案时通过安全措施考核。如果发起大模型备案后再临时补充相关制度,可能会造成申报资料出现前后不一的情况,导致申请被驳回。
总结
大模型备案主要分语料安全评估、模型安全评估、安全措施评估三大部分。今天介绍的主要是语料方面的信息,其它两大部分的评估及一些具体信息,我会在将来陆续整理出来,供大家参考。