之前也有提到过,因为已经转行差分隐私不搞NLP啦,所以之后的博客不会再更新NLP相关内容(尽管曾经的梦想是在NLP领域有所作为哈哈哈),但是如果大家有什么相关问题还是期待着一同讨论哟~
好了我们言归正传,本文向大家介绍2006年Dwork大神的一篇文章,文章名字就叫Differential Privacy,应该是差分隐私的开山之作了。
首先,差分隐私所描述的隐私保护,针对的都是数据库中的个人数据(本文主要关注统计数据库)。
我们所设想的最好的隐私保护当然是:可以通过学习数据库得到某些群体信息,但是无法学习到个人信息。
(群体信息是我们本来就想学习到的内容,比如均值)
本文中所提到的隐私保护是建立在考虑附加信息(auxiliary information)的情况下的,附加信息是指攻击者通过非目标数据库可以得到的信息(比如报纸,新闻等)。那么,
【一】绝对的隐私究竟能不能达到?
看到这个问题,相信大家一定已经有了一个答案。
答案必然是否定的。
这篇文章的Section 3严格证明了这个结论(但是我没看明白……),但(所)是(以)在本文中并不做详细讨论,有兴趣的朋友们可以自行研究~
在这里可以举一个例子简单理解一下:
假如某个数据库 DDD 发布了不同国家的女性身高,攻击者还偶然得知了附加信息:女士A比中国女性平均身高高了2cm,那么攻击者就可以得知A的真实身高了。
作为对比,假设任何人都可以得知这条附加信息,普通人(没有访问数据库 DDD 的人)得到的信息也很少,至少没办法推测A的真实身高。
因此,在考虑附加信息(aux)的情况下,绝对的隐私保护是无法实现的。
【二】差分隐私定义
在这里,我们再深入思考一下,在刚刚的例子中我们发现,无论女士A的个人信息是否被包含在数据库 DDD 中,攻击的实施不会受到任何影响。
换句话说,对某个个体攻击的实施可行与否,与数据库中是否包含该个体无关。因此,从个人的角度来说,这种攻击是“不可防范的”。
原文是这样叙述的:

基于这样的观察,该文章对差分隐私给出了这样的定义:

很容易理解,这个定义确保了只更改数据库中的一条数据,对查询的反馈“基本上”是以同样的可能性出现的。
这个“基本上”是由参数 ϵ\epsilonϵ 保证的。很明显,ϵ\epsilonϵ 越小,隐私保护能力越强。
那么如何达到这样的目的呢?
定义中也给出了线索,就是随机(randomized function K\mathcal{K}K)。
【三】函数的敏感度
在介绍差分隐私具体的实现方法之前,首先介绍这样一个定义:函数的 L1−sensitivityL_1-sensitivityL1−sensitivity (后文会用到):

L1−sensitivityL_1-sensitivityL1−sensitivity 定义了当一个participant改变时,查询函数 f(⋅)f(\cdot)f(⋅) 所输出结果的最大改变量。这样的改变量往往被称为函数的敏感度,常用的还有L2−sensitivityL_2-sensitivityL2−sensitivity,特别是在机器学习差分隐私领域。
在这里我们举个例子:
假设有这样一个查询 fff:数据库 DDD 中共有多少个人(即,多少行)具有属性 PPP?
那么该查询的 L1−sensitivityL_1-sensitivityL1−sensitivity:Δf=1\Delta f = 1Δf=1.
值得注意的是,敏感度(无论是 L1L_1L

本文深入探讨差分隐私的概念,解析其核心定义,并通过实例说明如何通过在查询结果上添加随机噪声实现隐私保护。同时,文章介绍了函数的敏感度及其在差分隐私中的作用,以及如何基于指数分布的隐私机制确保数据隐私。
最低0.47元/天 解锁文章
1209

被折叠的 条评论
为什么被折叠?



