差分隐私相关论文(1) —— Differential Privacy, Dwork 2006

最新推荐文章于 2024-12-30 20:35:01 发布

原创

最新推荐文章于 2024-12-30 20:35:01 发布 · 6.9k 阅读

41 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

本文深入探讨差分隐私的概念，解析其核心定义，并通过实例说明如何通过在查询结果上添加随机噪声实现隐私保护。同时，文章介绍了函数的敏感度及其在差分隐私中的作用，以及如何基于指数分布的隐私机制确保数据隐私。

之前也有提到过，因为已经转行差分隐私不搞NLP啦，所以之后的博客不会再更新NLP相关内容（尽管曾经的梦想是在NLP领域有所作为哈哈哈），但是如果大家有什么相关问题还是期待着一同讨论哟~
好了我们言归正传，本文向大家介绍2006年Dwork大神的一篇文章，文章名字就叫Differential Privacy，应该是差分隐私的开山之作了。

首先，差分隐私所描述的隐私保护，针对的都是数据库中的个人数据（本文主要关注统计数据库）。
我们所设想的最好的隐私保护当然是：可以通过学习数据库得到某些群体信息，但是无法学习到个人信息。
（群体信息是我们本来就想学习到的内容，比如均值）

本文中所提到的隐私保护是建立在考虑附加信息（auxiliary information）的情况下的，附加信息是指攻击者通过非目标数据库可以得到的信息（比如报纸，新闻等）。那么，

【一】绝对的隐私究竟能不能达到？

看到这个问题，相信大家一定已经有了一个答案。
答案必然是否定的。
这篇文章的Section 3严格证明了这个结论（但是我没看明白……），但（所）是（以）在本文中并不做详细讨论，有兴趣的朋友们可以自行研究~

在这里可以举一个例子简单理解一下：
假如某个数据库 $D$ 发布了不同国家的女性身高，攻击者还偶然得知了附加信息：女士A比中国女性平均身高高了2cm，那么攻击者就可以得知A的真实身高了。
作为对比，假设任何人都可以得知这条附加信息，普通人（没有访问数据库 $D$ 的人）得到的信息也很少，至少没办法推测A的真实身高。
因此，在考虑附加信息（aux）的情况下，绝对的隐私保护是无法实现的。

【二】差分隐私定义

在这里，我们再深入思考一下，在刚刚的例子中我们发现，无论女士A的个人信息是否被包含在数据库 $D$ 中，攻击的实施不会受到任何影响。
换句话说，对某个个体攻击的实施可行与否，与数据库中是否包含该个体无关。因此，从个人的角度来说，这种攻击是“不可防范的”。
原文是这样叙述的：
presence or not

基于这样的观察，该文章对差分隐私给出了这样的定义：
Definition of Differential Privacy
很容易理解，这个定义确保了只更改数据库中的一条数据，对查询的反馈“基本上”是以同样的可能性出现的。
这个“基本上”是由参数 $ϵ\epsilon$ 保证的。很明显， $ϵ\epsilon$ 越小，隐私保护能力越强。
那么如何达到这样的目的呢？
定义中也给出了线索，就是随机（randomized function $K\mathcal{K}$ ）。

【三】函数的敏感度

在介绍差分隐私具体的实现方法之前，首先介绍这样一个定义：函数的 $L_1-sensitivity$ （后文会用到）：
L1-sensitivity
$L_1-sensitivity$ 定义了当一个participant改变时，查询函数 $f(⋅)f(\cdot)$ 所输出结果的最大改变量。这样的改变量往往被称为函数的敏感度，常用的还有 $L_2-sensitivity$ ，特别是在机器学习差分隐私领域。