目录
差分隐私(Differential privacy)最早于2008年由Dwork 提出,通过严格的数学证明,使用随机应答(Randomized Response)方法确保数据集在输出信息时受单条记录的影响始终低于某个阈值,从而使第三方无法根据输出的变化判断单条记录的更改或增删,被认为是目前基于扰动的隐私保护方法中安全级别最高的方法。
差分隐私保护的是数据源中一点微小的改动导致的隐私泄露问题。差分隐私,顾名思义就是用来防范差分攻击的。
举个简单的例子,假设现在有一个婚恋数据库,2个单身8个已婚,只能查有多少人单身。刚开始的时候查询发现,2个人单身;现在张三跑去登记了自己婚姻状况,再一查,发现3个人单身。所以张三单身。这里张三作为一个样本的的出现,使得攻击者获得了奇怪的知识。而差分隐私需要做到的就是使得攻击者获得的知识不会因为这些新样本的出现而发生变化。
一、涉及知识点
1、查询
对数据集的各种映射函数被定义为查询(Query),用
={
,
, ......}来表示一组查询。
2、邻近数据集(兄弟数据集)
为了更形式化地描述差分隐私,我们需要先定义相邻数据集。现给定两个数据集D和D’, 若它们有且仅有一条数据不一样,那我们就称此二者为相邻数据集。
或者:设数据集与
,具有相同的属性结构,两者对称差记作
,|
|表示对称差的数量。若|
|=1,则称
和
为邻近数据集(又称兄弟数据集 )。

以上面数据集为例:假定有 n 个人,他们是否是单身狗,形成一个集合
(其中
=0或1),那么另一个集合当中只有一个人改变了单身状态,形成另一个集合
,也就是只存在一个 i&n
差分隐私:原理、机制与分类详解

本文介绍了差分隐私,它是基于扰动的高安全级别隐私保护方法,能防范差分攻击。文中阐述了涉及的知识点,如查询、邻近数据集等,还介绍了拉普拉斯和高斯两种实现机制,以及本地化、中心化、分布式和混合四种差分隐私分类,并分析了各类别的优缺点。
最低0.47元/天 解锁文章
26

被折叠的 条评论
为什么被折叠?



