水平分区数据的隐私保护方法综述
1. 引言
数据挖掘能从大量数据中提取重要知识,但数据常分散在不同方。数据仓库将多源数据集中,增加了隐私泄露风险,且隐私顾虑可能使各方不愿直接共享元数据。分布式数据挖掘和处理可解决此问题,尤其是在查询处理时不泄露最终结果之外的信息。本文旨在介绍在不侵犯隐私的前提下挖掘水平分区数据的方法,并探讨如何以保护隐私的方式使用数据挖掘结果。
以疾病控制中心(CDC)挖掘健康记录为例,保险公司有患者疾病和处方数据,CDC想挖掘关联规则,但保险公司担心数据共享,因为既要保护患者隐私,又不愿公开仅与自身相关的规则。一种解决方案是避免数据在源之外泄露,同时构建与集成数据集上学习到的等效数据挖掘模型。
隐私的定义是:任何站点在数据挖掘过程中不应学到新信息,即学到的内容应可从自身数据和最终结果推导得出。研究方法是选择要学习的数据挖掘模型类型,并开发满足此隐私定义的学习协议。不同的数据分布类型需要不同的协议,本文主要讨论水平分区数据,即各站点具有相同模式,但信息针对不同实体。
2. 隐私保护分布式数据挖掘的基本加密技术
隐私保护分布式数据挖掘算法需要各方协作计算结果,同时防止泄露除数据挖掘结果外的任何信息。为此,将使用安全多方计算(SMC)领域的工具。
2.1 隐私定义和证明技术
SMC源于姚氏百万富翁问题,即两个百万富翁想知道谁更富有,但都不透露自己的净资产。SMC文献定义了两种基本的对抗模型:
- 半诚实(Honest but Curious):半诚实的对手会忠实地遵循协议,但可能会从协议执行过程中看到的数据推断其他方的秘密信息。
- 恶意(Malicious)
超级会员免费看
订阅专栏 解锁全文
66

被折叠的 条评论
为什么被折叠?



