14、水平分区数据的隐私保护方法综述

水平分区数据的隐私保护方法综述

1. 引言

数据挖掘能从大量数据中提取重要知识,但数据常分散在不同方。数据仓库将多源数据集中,增加了隐私泄露风险,且隐私顾虑可能使各方不愿直接共享元数据。分布式数据挖掘和处理可解决此问题,尤其是在查询处理时不泄露最终结果之外的信息。本文旨在介绍在不侵犯隐私的前提下挖掘水平分区数据的方法,并探讨如何以保护隐私的方式使用数据挖掘结果。

以疾病控制中心(CDC)挖掘健康记录为例,保险公司有患者疾病和处方数据,CDC想挖掘关联规则,但保险公司担心数据共享,因为既要保护患者隐私,又不愿公开仅与自身相关的规则。一种解决方案是避免数据在源之外泄露,同时构建与集成数据集上学习到的等效数据挖掘模型。

隐私的定义是:任何站点在数据挖掘过程中不应学到新信息,即学到的内容应可从自身数据和最终结果推导得出。研究方法是选择要学习的数据挖掘模型类型,并开发满足此隐私定义的学习协议。不同的数据分布类型需要不同的协议,本文主要讨论水平分区数据,即各站点具有相同模式,但信息针对不同实体。

2. 隐私保护分布式数据挖掘的基本加密技术

隐私保护分布式数据挖掘算法需要各方协作计算结果,同时防止泄露除数据挖掘结果外的任何信息。为此,将使用安全多方计算(SMC)领域的工具。

2.1 隐私定义和证明技术

SMC源于姚氏百万富翁问题,即两个百万富翁想知道谁更富有,但都不透露自己的净资产。SMC文献定义了两种基本的对抗模型:
- 半诚实(Honest but Curious):半诚实的对手会忠实地遵循协议,但可能会从协议执行过程中看到的数据推断其他方的秘密信息。
- 恶意(Malicious)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值