基于语音的并行隐私保护记录链接
1. 引言
近年来,数据的产生和可用性呈现出前所未有的增长态势。这些数据往往来自不同的异构源,经过处理和整合后,能为数据集成、商业智能、网络挖掘和推荐系统等应用提供有价值的信息。然而,由于大部分数据涉及人类活动,隐私问题随之而来,这催生了一个新的研究领域——隐私保护记录链接(PPRL)。
在PPRL中,两个或多个数据持有者试图识别存储在各自记录中的公共实体,同时不向对方透露任何额外信息。例如,一位医学研究人员想要调查一种新药的副作用,需要访问不同医院、医生和药房的数据,以确定服用该药物的患者以及他们随后出现的症状或接受的治疗。但向研究人员透露患者的所有信息会侵犯患者隐私。理想情况下,研究人员只需知道服用药物的患者出现的症状,而无需了解其他关于患者的信息。因此,隐私保护记录链接的目标是跨多个数据源链接记录,同时除了公共(链接)记录外,不向数据源或参与链接过程的任何外部方透露任何其他信息。
由于数据源是异构的,具有不同的模式且没有共同的唯一标识符,链接方法需要利用所有数据源共有的字段来识别公共实体。因此,PPRL的核心过程是隐私保护匹配,这也是本文的重点。此外,数据通常是“脏”的,这进一步增加了链接过程的复杂性。考虑到可用数据的大量性,记录链接成为一项非常耗费资源的任务。随着可用数据量的增加,对处理能力的要求也在提高,这促使组织将计算任务外包给基础设施即服务(IaaS)云提供商。因此,像Apache Spark这样的大数据处理引擎的发展,为利用其并行处理能力开辟了新的方向。
为了利用新的大数据处理能力,我们提出了一种并行、经济高效的协议,用于执行隐私保护的近似字符串匹配。该协议基于语音代码,扩展了该领域的现有工作。语音代码是基于字符
超级会员免费看
订阅专栏 解锁全文
1388

被折叠的 条评论
为什么被折叠?



