个人信息去标识化具体实施指南

本文围绕个人信息去标识化展开,介绍了去标识化的目标、原则、重标识风险等内容。阐述了去标识化过程,包括确定目标、识别标识等步骤。还介绍了多种去标识化技术和模型,如统计、密码技术等,以及常见标识符的去标识化方法,并提及去标识化面临的挑战。

声明

本文是学习个人信息去标识化指南. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们

范围

本标准描述了个人信息去标识化的目标和原则,提出了去标识化过程和管理措施。

本标准针对微数据提供具体的个人信息去标识化指导,适用于组织开展个人信息去标识化工作,也适用于网络安全相关主管部门、第三方评估机构等组织开展个人信息安全监督管理、评估等工作。

规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB 11643—1999 公民身份号码

GB/T 25069—2010 信息技术 安全技术 术语

GB/T 31722—2015 信息技术 安全技术 信息安全风险管理

GB/T 35273—2017 信息安全技术 个人信息安全规范

术语和定义

GB/T 25069—2010中界定的以及下列术语和定义适用于本文件。

3.1 \
个人信息 personal information

以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息。

[GB/T 35273-2017,定义3.1]

3.2 \
个人信息主体 personal data subject

个人信息所标识的自然人。

[GB/T 35273-2017,定义3.3]

3.3 \
去标识化 de-identification

通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程。

[GB/T 35273-2017,定义3.14]

注:去除标识符与个人信息主体之间关联性。

3.4 \
微数据 microdata

一个结构化数据集,其中每条(行)记录对应一个个人信息主体,记录中的每个字段(列)对应一个属性。

3.5 \
聚合数据 aggregate data

表征一组个人信息主体的数据,比如各种统计值的集合。

3.6 \
标识符 identifier

微数据中的一个或多个属性,可以实现对个人信息主体的唯一识别。

注:标识符分为直接标识符和准标识符。

3.7 \
直接标识符 direct identifier

微数据中的属性,在特定环境下可以单独识别个人信息主体。例如:姓名、身份证号、护照号、驾照号、地址、电子邮件地址、电话号码、传真号码、银行卡号码、车牌号码、车辆识别号码、社会保险号码、健康卡号码、病历号码、设备标识符、生物识别码、互联网协议(IP)地址号和网络通用资源定位符(URL)等。

注:特定环境指个人信息使用的具体场景。比如,在一个具体的学校,通过学号可以直接识别出一个具体的学生。

3.8 \
准标识符 quasi-identifier

微数据中的属性,结合其它属性可唯一识别个人信息主体。比如:性别、出生日期或年龄、事件日期(例如入院、手术、出院、访问)、地点(例如邮政编码、建筑名称、地区)、族裔血统、出生国、语言、原住民身份、可见的少数民族地位、职业、婚姻状况、受教育水平、上学年限、犯罪历史、总收入和宗教信仰等。

3.9 \
重标识 re-identification

把去标识化的数据集重新关联到原始个人信息主体或一组个人信息主体的过程。

3.10 \
敏感属性 sensitive attribute

数据集中需要保护的属性,该属性值的泄露、修改、破坏或丢失会对个人产生损害。

注:在潜在的重标识攻击期间需要防止其值与任何一个个人信息主体相关联。

3.11 \
有用性 usefulness

数据对于应用有着具体含义、具有使用意义的特性。去标识化数据应用广泛,每种应用将要求去标识化数据具有某些特性以达到应用目的,因此在去标识化后,需要保证对这些特性的保留。

3.12 \
完全公开共享 completely public sharing

数据一旦发布,很难召回,一般通过互联网直接公开发布。

注:同英文术语The Release and Forget Model。

3.13 \
受控公开共享 controlled public sharing

通过数据使用协议对数据的使用进行约束,数据使用协议规定内容应包含但不限于:

a) 禁止信息接收方发起对数据集中个体的重标识攻击;

b) 禁止信息接收方关联到外部数据集或信息;

c) 禁止信息接收方未经许可共享数据集。

比如,针对合格的研究者,可基于数据使用协议共享数据。

注:同英文术语The Data Use Agreement Model。

3.14 \
领地公开共享 enclave public sharing

在物理或者虚拟的领地范围内共享,数据不能流出到领地范围外。

注:同英文术语The Enclave Model。

3.15 \
去标识化技术 de-identification technique

降低数据集中信息和个人信息主体关联程度的技术。

注1:降低信息的区分度,使得信息不能对应到特定个人,更低的区分度是不能判定不同的信息是否对应到同一个个人,实践中往往要求一条信息可能对应到的人数超过一定阈值。

注2:断开和个人信息主体的关联,即将个人其它信息和标识信息分离。

3.16 \
去标识化模型 de-identification model

应用去标识化技术并能计算重标识风险的方法。

概述

去标识化目标

去标识化目标包括:

a) 对直接标识符和准标识符进行删除或变换,避免攻击者根据这些属性直接识别或者结合其它信息识别出原始个人信息主体;

b) 控制重标识的风险,根据可获得的数据情况和应用场景选择合适的模型和技术,将重标识的风险控制在可接受范围内,确保重标识风险不会随着新数据发布而增加,确保数据接收方之间的潜在串通不会增加重标识风险;

c) 在控制重标识风险的前提下,结合业务目标和数据特性,选择合适的去标识化模型和技术,确保去标识化后的数据集尽量满足其预期目的(有用)。

去标识化原则

对数据集进行去标识化,应遵循以下原则:

a) 合规:应满足我国法律法规和标准规范对个人信息安全保护的有关规定,并持续跟进有关法律法规和标准规范;

b) 个人信息安全保护优先:应根据业务目标和安全保护要求,对个人信息进行恰当的去标识化处理,在保护个人信息安全的前提下确保去标识化后的数据具有应用价值;

c) 技术和管理相结合:根据工作目标制定适当的策略,选择适当的模型和技术,综合利用技术和管理两方面措施实现最佳效果。包括设定具体的岗位,明确相应职责;对去标识化过程中形成的辅助信息(比如密钥、映射表等)采取有效的安全防护措施等;

d) 充分应用软件工具:针对大规模数据集的去标识化工作,应考虑使用软件工具提高去标识化效率、保证有效性;

e) 持续改进:在完成去标识化工作后须进行评估和定期重评估,对照工作目标,评估工作效果(包括重标识风险和有用性)与效率,持续改进方法、技术和工具。并就相关工作进行文档记录。

重标识风险

重标识方法

常见的用于重标识的方法如下:

a) 分离:将属于同一个个人信息主体的所有记录提取出来;

b) 关联:将不同数据集中关于相同个人信息主体的信息联系起来;

c) 推断:通过其它属性的值以一定概率判断出一个属性的值。

重标识攻击

常见的重标识攻击包括:

a) 重标识一条记录属于一个特定个人信息主体;

b) 重标识一条特定记录的个人信息主体;

c) 尽可能多的将记录和其对应的个人信息主体关联;

d) 判定一个特定的个人信息主体在数据集中是否存在;

e) 推断和一组其它属性关联的敏感属性。

去标识化影响

对数据集进行去标识化,会改变原始数据集,可能影响数据有用性。业务应用使用去标识化后的数据集时应充分认识到这一点,并考虑数据集变化可能带来的影响。

不同公开共享类型对去标识化的影响

在开展去标识化工作之前需要根据应用需求确定数据的公开共享类型,不同公开共享类型可能引发的重标识风险和对去标识化的要求如表1所示。

表1 不同公开共享类型对去标识化的影响

去标识化过程

概述

去标识化过程通常可分为确定目标、识别标识、处理标识以及验证审批等步骤,并在上述各步骤的实施过程中和完成后进行有效的监控和审查。如图1所示。

siduwenku.com 专注免费分享高质量文档

图1 去标识化过程

确定目标

概述

确定目标步骤包括确定去标识化对象、建立去标识化目标和制定工作计划等内容。

确定去标识化对象

确定去标识化对象,指确定需要去标识化的数据集范围,宜根据以下要素确定哪些数据属于去标识化对象:

a) 法规标准。了解国家、地区或行业的相关政策、法律、法规和标准,待采集或发布数据是否涉及去标识化相关要求。

b) 组织策略。了解数据是否属于组织列入的重要数据或敏感数据范畴,数据应用时是否存在去标识化的要求。

c) 数据来源。了解这些数据采集时是否做过去标识化相关承诺。

d) 业务背景。了解数据来源相关信息系统的业务特性,了解业务内容和业务流程,披露数据是否涉及个人信息安全风险。

e) 数据用途。了解待发布数据的用途,是否存在个人信息安全风险。

f) 关联情况。了解数据披露历史和去标识化历史情况,待披露数据是否和历史数据存在关联关系。

建立去标识化目标

建立去标识化目标,具体包括确定重标识风险不可接受程度以及数据有用性最低要求。

需要考虑的因素包括:

a) 数据用途。了解数据去标识化后的用途,涉及到业务系统的功能和特性。

b) 数据来源。了解数据获取时的相关承诺,以及涉及哪些个人信息。

c) 公开共享类别。若为数据发布实施个人信息去标识化,需了解数据是完全公开共享、受控公开共享还是领地公开共享,以及对数据在浏览和使用方面的安全保护措施。

d) 去标识化模型和技术。了解数据适用的保护或去标识化标准,以及可能采用的去标识化模型和技术。

e) 风险级别。了解数据属性和业务特性,拟采用的重标识风险评估模型及设定的风险级别。

制定工作计划

制定个人信息去标识化的实施计划,包括去标识化的目的、目标、数据对象、公开共享方式、实施团队、实施方案、利益相关方、应急措施以及进度安排等,形成去标识化实施计划书。

确定相关内容后,去标识化实施计划书应得到组织高级管理层的批准和支持。

识别标识

概述

识别标识符的方法包括查表识别法、规则判定法和人工分析法。

查表识别法

查表识别法指预先建立元数据表格,存储标识符信息,在识别标识数据时,将待识别数据的各个属性名称或字段名称,逐个与元数据表中记录进行比对,以此识别出标识数据。

建立的标识符元数据表,应包括标识符名称、含义、格式要求、常用数据类型、常用字段名字等内容。

查表识别法适用于数据集格式和属性已经明确的去标识化场景,如采用关系型数据库,在表结构中已经明确姓名、身份证号等标识符字段。

规则判定法

规则判定法是指通过建立软件程序,分析数据集规律,从中自动发现标识数据。

组织可分析业务特点,总结可能涉及到直接标识符和准标识符的数据格式和规律,确立相关标识符识别规则,然后通过运行程序,自动化地从数据集中识别出标识数据。如可依据GB
11643—1999《公民身份号码》建立身份证号码识别规则,并通过自动化程序在数据集中自动发现存在的身份证号码数据。

组织识别标识数据宜先采用查表识别法,并根据数据量大小和复杂情况,结合采用规则判定法。规则判定法在某些情况下有助于发现查表识别法不能识别出的标识符,如标识符处于下面情况时:

a) 业务系统存储数据时未采用常用的字段名称,如使用"备注"字段存储身份证号;

b) 数据中存在混乱或错误情况,如"备注"字段前100条记录的值为空,而后10000条记录的值为用户身份证号码。

规则判定法不仅仅适用于结构化数据应用场景,也适用于某些半结构化和非结构化数据应用场景,如对于非结构化存储的司法判决书,可以通过建立身份证号识别规则和开发程序,从司法判决书中自动识别出所有的身份证号。

人工分析法

人工分析法是通过人工发现和确定数据集中的直接标识符和准标识符。

组织可在对业务处理、数据集结构、相互依赖关系和对数据集之外可用数据等要素分析的基础上,综合判断数据集重标识风险后,直接指定数据集中需要去标识化的直接标识符和准标识符。

人工分析法在结构化、半结构化和非结构化数据应用场景下都可使用。在下列场景时,人工分析法具有明显的优势:

a) 数据集中的多个不同数据子集之间存在关联、引用关系时,如通过数据挖掘算法,可关联分析数据集中多个非常见标识符属性后识别出唯一的用户身份;

b) 数据集中有特别含义的数据,或者数据具有特殊值、容易引起注意的值,从而可能被用来重标识时,如超出常人的身高、独特的地理坐标、罕见的病因等。

相比较于查表识别法和规则判定法,人工分析法能够更加准确地识别出标识符。

处理标识

概述

处理标识步骤分为预处理、选择模型技术、实施去标识化三个阶段工作。

预处理

预处理是在对数据集正式实施去标识化前的准备过程。一般地,预处理是对数据集施加某种变化,使其有利于后期进行处理。

预处理阶段工作可参考如下方法进行:

a) 形成规范化,或满足特定格式要求的数据;

b) 对数据抽样,减小数据集的规模;

c) 增加或扰乱数据,改变数据集的真实性。

组织应根据数据集的实际情况选择预处理措施,或选择不预处理。

选择模型技术

不同类型的数据需要采用不同的去标识化技术,所以在去标识化的早期阶段,重要的一步是确定数据的类型和业务特性,选择合适的去标识化模型和技术。选择的参考因素包括但不限于如下方面:

a) 是否需要对重标识风险进行量化;

b) 聚合数据是否够用;

c) 数据是否可删除;

d) 是否需要保持唯一性;

e) 是否需要满足可逆性;

f) 是否需要保持原有数据值顺序;

g) 是否需要保持原有数据格式,如数据类型、长度等保持不变;

h) 是否需要保持统计特征,如平均值、总和值、最大值、最小值等;

i) 是否需要保持关系型数据库中的实体完整性、参照完整性或用户自定义完整性;

j) 是否可以更改数据类型,比如在针对字符串类型的"性别"(男/女)进行去标识化时,是否可以变成数字类型表示(1/0);

k) 是否需要满足至少若干个属性值相同,以加强数据的不可区分性;

l) 是否可以对属性值实施随机噪声添加,对属性值做微小变化;

m) 去标识化的成本约束。

附录A和附录B分别给出了常见的去标识化技术和模型,针对这些技术和模型的特点以及选择方法可参考附录C。

实施去标识化

根据选择的去标识化模型和技术,对数据集实施去标识化。主要工作包括:

a) 若存在多个需要去标识化的标识符,则根据数据特点和业务特性设定去标识化的顺序;

b) 依次选择相应的工具或程序;

c) 设置工具或程序的属性和参数,如设置数据源、用户名/口令、算法参数等;

d) 依次执行去标识化工具或程序,获得结果数据集。

验证审批

验证结果含义

对数据集去标识化后进行验证,以确保生成的数据集在重标识风险和数据有用性方面都符合预设的目标。在验证满足目标过程中,需对去标识化后重标识风险进行评估,计算出实际风险,与预期可接受风险阈值进行比较,若风险超出阈值,需继续进行调整直到满足要求。由于重标识技术和重标识攻击的能力在迅速演变,需要由内部专业人员或权威的外部组织定期展开验证评估。

验证个人信息安全

验证去标识化数据满足个人信息安全保护要求的方法包括:

a) 检查生成的数据文件,以确保文件数据或元数据中不包含直接标识符和准标识符;

b) 检查生成的数据文件,以确保所得数据符合既定重标识风险要求;

c) 评估去标识化软件及其参数配置;

d) 进行有针对性的入侵者测试,看看是否有具备合格能力的外部人员可以使用公开的数据集执行重标识;

e) 让团队利用内部数据进行有针对性的入侵者测试,模拟违规者或敌对内幕人士可能发生的情况。

这些方法不能保证去标识化后的数据满足个人信息安全保护的要求,但它们可以作为整个组织风险评估的一部分。可证明的个人信息安全保护应依赖于形式化方法,比如用于规划组织数据发布的差分隐私方法。通过使用经过验证的去标识化软件,可以大大简化去标识化数据的个人信息安全保护的验证工作。

验证数据有用性

去标识化降低了数据质量和生成数据集的有用性。因此,需要考虑去标识化后的数据集对于预期的应用仍然有用。

存在一些方法用于验证数据有用性。例如,内部人员可对原始数据集和去标识化的数据集执行统计计算,并对结果进行比较,以查看去标识化后是否导致不可接受的更改。组织可让可信的外部人员检查去标识化数据集,以确定数据能被用于预期目的。

审批去标识化工作

在完成处理标识和验证结果后,组织管理层应依据数据发布共享用途、重标识风险、数据有用性最低要求等因素,以及验证结果、去标识化各步骤实施过程中的监控审查记录等因素,做出是否认可数据去标识化结果的决定。

审批由组织高级管理层来执行。

监控审查

监控审查去标识化各步骤实施过程

应确保去标识化的每一步骤均实现了预定目标。

在去标识化的各个步骤中,为有效完成去标识化任务,需在确定目标步骤撰写去标识化工作方案,明确各步骤要完成的工作,并在识别标识、处理标识、验证结果阶段记录工作过程和结果,形成文档。

组织管理层在去标识化的各个步骤完成时,对该阶段记录文档进行审查,检查输出文档是否齐全和内容完备,及时发现已经出现或可能出现的错误或偏差,并采取适当控制措施,监督各步骤执行过程得到完整和有效地执行。

监控审查过程也应记录到文档中,记录内容至少包括监控审查对象、时间、过程、结果和措施等内容。

持续监控去标识化效果

持续监控是指数据在去标识化、审批同意交付用户后,宜根据情况变化或定期进行去标识化数据的重标识风险评估,并与预期可接受风险阈值进行比较,以保障个人信息安全性。

情况发生变

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值