3、隐私保护数据挖掘模型与算法综述

隐私保护数据挖掘模型与算法综述

1. 引言

随着互联网上敏感信息的广泛传播,数据挖掘被视为对隐私的威胁,这促使人们对隐私保护数据挖掘技术进行了深入研究。隐私保护数据挖掘在一些本应侵犯隐私的应用中也有重要作用,关键在于设计出既有效又不损害安全的方法。

大多数隐私计算方法会对数据进行某种形式的转换,以降低数据表示的粒度来保护隐私,但这也会导致数据管理或挖掘算法的有效性有所损失,这就是信息损失和隐私之间的自然权衡。常见的技术包括:
- 随机化方法 :向数据中添加噪声以掩盖记录的属性值,然后从扰动后的记录中推导聚合分布,再开发相应的数据挖掘技术来处理这些分布。
- k - 匿名模型和 l - 多样性 :k - 匿名模型通过泛化和抑制等技术降低数据表示的粒度,确保每个记录至少与 k 个其他记录无法区分;l - 多样性模型则是为了弥补 k - 匿名模型在保护敏感值方面的不足。
- 分布式隐私保护 :在数据分区的情况下,各实体可以通过各种协议进行有限的信息共享,以在保护隐私的同时获得整个数据集的聚合结果。
- 降低应用有效性 :对数据挖掘和管理应用的输出进行处理,防止对手从结果中推断出敏感信息,例如关联规则隐藏、分类器降级和查询审计等。

2. 随机化方法

随机化方法传统上用于通过概率分布扭曲数据,以解决因隐私问题导致的调查回答偏差。在隐私保护数据挖掘中,该方法的过程如下:
对于一组数据记录 (X = {x_1 \cdots x_N}),为每个记录 (x_i \in X)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值