差分隐私:保障数据隐私的有效方法
1. 差分隐私概述
在数据发布过程中,差分隐私为隐私损失设定了界限,它定义了在发布信息时所能承受的隐私损失程度,并提供了一种衡量数据集中个体隐私损失的方法,是当今所谓“匿名化”的“黄金标准”。
差分隐私的界限可以通过定义中的特定参数进行调整,并且在访问、查询或发布数据的过程中得到保证。为了维持这些界限,我们使用特定的算法(称为机制),这些机制能够在不泄露任何个体过多信息的情况下,释放足够的信息以供从数据中学习。
与传统方法不同,差分隐私更侧重于过程而非结果。传统方法通常试图查看最终数据,判断其是否“足够匿名”,但这是一种谬误。差分隐私则关注特定算法能够提供的保证,通过衡量算法持续释放的信息来实现。通过关注过程和算法,我们还可以构建更动态的系统,更改算法,并随着时间分析隐私损失。
差分隐私最初的定义涉及两个仅相差一行数据的数据库 D1 和 D2,这一行数据代表一个人的添加或移除。其目标是让有动机且了解情况的攻击者无法获取关于添加或移除数据的人的过多信息,甚至无法确定此人是否被添加或移除。我们使用算法 A 来发布查询响应,并确保其满足以下定义:
[P [A (D1) \in S] \leq \exp (\epsilon) \times P [A (D2) \in S]]
这里,概率 (P) 表示攻击者根据响应(A(D1) 或 A(D2))判断是与第一个还是第二个数据库交互的可能性,受小值 (e^{\epsilon}) 限制。(e^{\epsilon}) 代表在最坏情况下,专门的攻击者通过调查查询响应或数据发布所能获得的信息量。
算法 A 必须在添加或移除任何行数据时都能保持这些界限。在构建差
超级会员免费看
订阅专栏 解锁全文
904

被折叠的 条评论
为什么被折叠?



