k匿名数据挖掘综述
1. 引言
如今,私人和公共组织每天收集的数据量迅速增长。数据挖掘技术对于辅助决策过程,以及从海量数据中提取隐藏知识变得越来越重要。然而,数据挖掘结果虽不直接包含原始数据,但可能用于推断原始数据,从而可能侵犯数据所有者的隐私。
隐私保护数据挖掘旨在平衡数据挖掘分析的信息共享和保护相关方隐私。目前有多种方法,常见的是修改数据以掩盖或擦除敏感信息,其基于隐私损失(衡量从修改后数据估计原始数据的能力)和信息损失(衡量数据准确性的损失)的概念,目标是在隐私和准确性之间取得平衡。还有利用加密技术防止信息泄露的方法,但通常计算成本较高。
本文关注k - 匿名性这一隐私概念。k - 匿名性旨在保护发布数据,防止数据所涉及的受访者被重新识别。k - 匿名数据挖掘是确保数据挖掘结果隐私保护的一种方法,本文将探讨数据挖掘对k - 匿名性的威胁及应对方法。
2. k - 匿名性
k - 匿名性要求发布的私有表PT中的每个元组都能与至少k个受访者无差别关联。即使去除了显式标识符,其他发布属性的某些值组合可能唯一或罕见,仍可能导致受访者身份被确定。因此,k - 匿名性要求在发布表中,受访者在可用于关联的准标识符属性集上不可区分,即准标识符属性的每个值组合至少出现k次。
例如,有一个私有表记录了个人的婚姻状况、性别、工作时间和是否患有高血压。假设婚姻状况、性别和工作时间构成准标识符,简化后的表如下:
| 婚姻状况 | 性别 | 工作时间 | #元组 (高血压值) |
| — | — | — | — |
| 离婚 | 男 | 35 | 2 (0Y, 2N) |
| 离婚 | 男 | 40
超级会员免费看
订阅专栏 解锁全文
941

被折叠的 条评论
为什么被折叠?



