数据隐私保护:方法、挑战与实践
1. 数据匿名化方法及其局限性
1.1 K - 匿名性
K - 匿名性基于隐匿安全的理念,即若能“隐藏”在 k 个或更多人的群体中,就实现了“匿名”。例如,为创建合适的分组,可能需要组合邮政编码、性别、婚姻状况和年龄等属性。但在创建这些分组时,会从一开始就损失大量信息,因为一些个体信息会丢失,另一些则会因类别扩展(如年龄范围扩大或邮政编码分组变大)而变得模糊。
即便创建了至少有 k 人具有相同邮政编码分组、性别分组、婚姻分组和年龄分组的群体,也不一定能保证匿名。因为可能存在其他泄露信息的属性,若分组中有 70% 的人有共同特征(如收入或教育程度),攻击者就有 70% 的概率了解该信息或做出合理猜测;若分组中 100% 的人某一明文值相同,攻击者则能自动知晓该信息。
1.2 t - 接近度和 l - 多样性
可以添加 t - 接近度确保分组中的目标变量与总体目标变量相匹配,添加 l - 多样性确保分组在发布变量上有足够多样性,避免他人轻易推断出 70% 的人具有特定特征。但这仍不够,因为发布信息时,无法从科学或严格意义上保证匿名性,也无法知晓攻击者掌握的外部信息以及其识别个体的能力。
而且,应用 k - 匿名性、t - 接近度和 l - 多样性后,数据可能变得极度通用化,且除了尽力而为,无法确定能提供何种保证。与差分隐私机制不同,目标和其他相关变量未以任何方式改变或受限,若攻击者认识数据集中的某人,就能立即知晓相关信息,若信息敏感,风险极大。
1.3 差分隐私
差分隐私改变了思维方式,它通过统计推理衡量可能的信息增益,而非凭直觉选择属性分组
超级会员免费看
订阅专栏 解锁全文
1907

被折叠的 条评论
为什么被折叠?



