数据发布中的隐私保护
在数据发布过程中,保护数据主体的隐私至关重要。本文将介绍几种常见的数据隐私保护方法,包括 k - 匿名、ℓ - 多样性和 t - 接近性,以及它们的扩展解决方案。
1. 基本概念
在深入探讨隐私保护方法之前,我们先明确一些基本概念:
- 微数据表格 :表格中的元组与数据主体存在一一对应关系,且微数据表格仅发布一次,每个表格具有唯一的准标识符。
2. k - 匿名
k - 匿名是为保护微数据免受身份泄露而提出的方法。它要求任何发布的数据应与不少于一定数量的主体无差别关联,以此降低通过将发布的数据集与外部数据源链接而导致重新识别的风险。
具体来说,k - 匿名要求每次数据发布时,准标识符的每个值组合都能至少与 k 个主体无差别匹配。若微数据表格中的每个元组与总体中不少于 k 个主体相关联,且总体中的每个主体与发布表格中不少于 k 个元组相关联,则该表格满足 k - 匿名要求。
传统保证 k - 匿名的方法是转换构成准标识符的属性值,同时保持敏感和非敏感属性不变。常用的技术包括泛化和抑制:
- 泛化 :用更通用的值替换原始值,例如将出生日期泛化为出生年份或出生年代。
- 抑制 :从微数据表格中移除数据。
泛化和抑制可在不同粒度级别应用,组合使用它们可减少满足 k - 匿名所需的泛化量。然而,大多数解决方案采用属性泛化和元组抑制,因为单元格泛化可能导致同一列中的值不均匀,但它在信息损失方面具有优势。
计算最优的 k - 匿
超级会员免费看
订阅专栏 解锁全文
3457

被折叠的 条评论
为什么被折叠?



