隐私保护计数聚合查询在 k 分类中的应用
1. 引言
在当今数据驱动的时代,数据挖掘技术被广泛应用于各个领域,旨在从海量数据中提取有价值的知识。然而,这也带来了一个严峻的问题:个人信息可能会因数据挖掘结果而泄露。因此,隐私保护数据挖掘技术应运而生。
本文聚焦于一个特定场景:在一个由服务器和 n 个客户端组成的模型中,为构建目标属性包含多个类别的决策树,从经过扰动的表中重建计数聚合查询的结果。每个客户端拥有一条包含 m + 1 个属性的记录,其中 Attr0 是分类中的目标属性,同时也是一个分类属性,而其他属性 Attr1, …, Attrm 则是条件属性。虽然单个属性不包含个人标识符,但属性的组合可能会导致个人信息泄露。为了保护隐私,每个客户端会使用保留替换扰动算法对记录进行扰动后发送给服务器。
2. 准备工作
2.1 相关工作
在统计数据库领域,已经对统计查询的隐私保护技术进行了研究。但这些研究采用的统计数据库模型与本文的客户端 - 服务器模型不同。本文采用的隐私保护模型与之前的一些研究相同,在某些研究中,客户端会向自己的记录添加随机值作为噪声,服务器再从扰动表中重建原始表中每个属性的分布。不过,这种方法需要对每个属性独立执行重建过程。另外,还有针对构建目标属性包含两个类别的决策树的重建技术,本文将借鉴并扩展其中的一种重建技术。
2.2 隐私保护 OLAP
- 保留替换扰动 :该算法会按照为每个属性配置的恒定概率,将记录中的值替换为其他值或保留原始值。Attrj 的保留概率 rpj 满足 0 ≤ rpj ≤ 1,其数学表示如下: