隐私保护数据挖掘模型与算法综述
1. 引言
随着互联网上敏感信息的广泛传播,数据挖掘被视为对隐私的威胁,这促使人们对隐私保护数据挖掘技术进行了深入研究。隐私保护数据挖掘在一些本应侵犯隐私的应用中也有重要作用,关键在于设计出既有效又不损害安全的方法。
大多数隐私计算方法会对数据进行某种形式的转换,以降低数据表示的粒度来保护隐私,但这也会导致数据管理或挖掘算法的有效性有所损失,这就是信息损失和隐私之间的自然权衡。常见的技术包括:
- 随机化方法 :向数据中添加噪声以掩盖记录的属性值,然后从扰动后的记录中推导聚合分布,再开发相应的数据挖掘技术来处理这些分布。
- k - 匿名模型和 l - 多样性 :k - 匿名模型通过泛化和抑制等技术降低数据表示的粒度,确保每个记录至少与 k 个其他记录无法区分;l - 多样性模型则是为了弥补 k - 匿名模型在保护敏感值方面的不足。
- 分布式隐私保护 :在数据分区的情况下,各实体可以通过各种协议进行有限的信息共享,以在保护隐私的同时获得整个数据集的聚合结果。
- 降低应用有效性 :对数据挖掘和管理应用的输出进行处理,防止对手从结果中推断出敏感信息,例如关联规则隐藏、分类器降级和查询审计等。
2. 随机化方法
随机化方法传统上用于通过概率分布扭曲数据,以解决因隐私问题导致的调查回答偏差。在隐私保护数据挖掘中,该方法的过程如下:
对于一组数据记录 (X = {x_1 \cdots x_N}),为每个记录 (x_i \in X)
超级会员免费看
订阅专栏 解锁全文
66

被折叠的 条评论
为什么被折叠?



