基于蒙德里安算法和角度集成的大数据处理方法
蒙德里安算法在大数据匿名化中的应用
在大数据时代,发布数据时保护隐私至关重要。传统的蒙德里安算法串行实现难以处理大数据,因此提出了一种基于蒙德里安算法的分布式方法。
现有方法的问题与改进
最初基于MapReduce的去标识化方法存在问题,每次迭代后需要在所有节点间共享全局文件来更新等价类信息,且该文件在后续迭代中会越来越大。为解决此问题,开发了第二个版本,不创建单一全局文件,而是生成文件片段并分布到各节点。在Map阶段,每个节点为文件片段添加唯一ID,下次迭代时只需访问Reduce操作所需的文件,避免了维护全局文件。但该技术在处理多次迭代和文件管理方面存在缺陷,随着迭代次数增加,系统性能下降,文件管理难度增大。后来,Zhang等人引入了MRMondrian方法,基于蒙德里安方法,利用MapReduce将大型数据集拆分为小数据集,直到每个分区与计算节点大小匹配,然后在所有节点并行运行基本蒙德里安算法,并开发了PID - 树结构来实现该模型。
提出的分布式方法
提出的方法采用分布式方式实现蒙德里安算法。蒙德里安算法代码经过多次测试,是目前可用的最佳和最快的代码之一。该代码有三个输入:
1. 蒙德里安模型模式 :指定使用宽松(Relax)或严格(Strict)模式。严格模式下,kd - 树分区不允许节点位于左右分区边界;宽松模式则允许,即两个集合的交集可能不为空。
2. 数据集 :使用Adult数据集进行测试,该数据集包含32,000条记录,因其在先前去标识化文章中经常使用。
3.
超级会员免费看
订阅专栏 解锁全文
774

被折叠的 条评论
为什么被折叠?



