提高 k-匿名微聚合的时间复杂度和实用性
1. 引言
在医学、经济学和社会科学研究中,需要用到个人的特定数据。这些数据应公开可用,但不能侵犯个人隐私。微聚合是应用于数据库的一种标准隐私保护技术,它将相似的人聚成更大的组,以实现所谓的 k-匿名性,即每个人都隐藏在一个至少有 k 个成员的组中。这样处理后的数据可公开用于各种分析,而其他概念(如差分隐私)则将数据库保密,只允许外部人员提出特定问题。
为实现匿名性而对数据库进行的修改应尽可能小,以保持数据的实用性,即应最小化信息损失。在这方面,微聚合通常比其他匿名化技术(如泛化或抑制)表现更好。然而,对于 k ≥ 3 的情况,通过 k-匿名微聚合最小化信息损失是一个 NP 难的优化问题。不仅难以高效地计算最优解,而且也缺乏非平凡的近似算法。因此,人们开发了一系列启发式算法,这些算法的时间复杂度至少为二次。
本文显著改进了微聚合技术,并在计算成本和实用性之间提供了权衡。具体如下:
- 详细分析和调整最大距离方法,设计了新算法 MDAV∗γ,在标准基准测试中具有更好的实用性。
- 对基于 Lloyd 算法的 ONA 算法进行了完善和改进,得到新算法 ONA∗,实用性更佳。
- 改进了 Mondrian 算法,设计了几乎线性时间复杂度的算法,能提供可接受的实用性,尽管不如二次时间算法。
- 结合 ONA 和 Mondrian 技术,构建了新的参数化算法类 MONA,时间复杂度介于几乎线性和二次之间,且与 MDAV 方法相比具有有竞争力的实用性。
2. 问题设定
下面给出问题的正式定义和相关符号。
- 数据库 :一
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



