分布式分类器的隐私计算
1 引言
随着不同数据库中存储的信息量不断增加,隐私问题日益受到关注。将多个数据源的数据集中处理,虽然能提升数据处理和挖掘的效率,但也增加了数据被滥用的风险。隐私保护至关重要,若不解决隐私问题,可能会阻碍数据挖掘的合理应用。
例如,医生希望通过查看其他医院类似症状的诊断结果,来确定患者最可能的疾病。但直接获取这些信息可能会泄露医院的隐私,导致医院不愿参与此类诊断工具。那么,能否在不泄露除最终分类结果之外的任何信息的情况下完成这一任务呢?答案是肯定的。本文提出了一种具有可证明隐私属性的高效分类方法。
该方法假设数据是水平划分的,即每个数据库能够独立构建自己的最近邻。其核心目标是确定哪些局部结果在全局范围内最接近,并找出全局最近邻的多数类。同时,要保护数据源的隐私,而不保护查询发起者的隐私。为此,引入了一个不可信但不勾结的第三方,该方不能了解任何数据信息,但被信任不会与其他方勾结以泄露数据信息。
基本思路如下:
1. 每个站点找到自己的最近邻,并使用发送分类实例的站点(查询站点)的公钥对类别进行加密。
2. 各站点将自己的最近邻与其他所有站点的进行比较,但比较结果以随机份额的形式分配给每个站点,确保任何一方都无法得知比较结果。
3. 所有站点的比较结果被组合、打乱后发送给不可信的非勾结站点。该站点将随机份额组合,得到每对的比较结果,从而能够对数据进行排序并选择全局最近邻,但无法得知数据的来源或值。
4. 查询站点和不可信的非勾结站点通过特定协议确定类别值。每个站点都无法了解其他站点的信息,不可信站点看到的是加密结果,查询站点只能看到最终结果。
下面是信息流动的 mermaid 流程