差分隐私基础入门总结

最新推荐文章于 2025-10-20 23:06:30 发布

原创

最新推荐文章于 2025-10-20 23:06:30 发布 · 7.1k 阅读

76 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #差分隐私 #人工智能 #隐私保护

差分隐私基础入门总结

1、什么是隐私？传统的隐私保护手段有哪些？为什么需要差分隐私？

在大数据的时代我们越来越离不开数据，利用数据可以给我们提供更好更方便迅捷的服务，比如依据位置自动为你推送附近的餐厅或者咖啡，依据你的浏览偏好为你展示你感兴趣的内容，依据你的就诊记录医生可以对你的身体情况有了一个初步的判断。但是这些数据一定程度上也正在给你带来严重的隐私问题，一些木马可以依据你的浏览偏好有意地推送那些你更容易点击的链接从而给你造成严重的损失。

因此我们需要对数据进行一定的加工处理，保证它可用的同时又不会造成严重的隐私泄露问题。也就是说，我们需要保证我们的数据能够提供合适的信息为生活服务带来便利，但又不会泄露个人的敏感信息招致自身利益受损。

最早出现了两个隐私度量作为隐私保护的衡量标准：

披露风险：

披露风险[3]定义为，攻击者根据背景知识，可能从发布的数据集中，所披露隐私的概率。即通过攻击者披露隐私的多少，来侧面反映隐私保护的效果。若发布者最终发布的数据集中，所有敏感数据的披露风险均小于阈值 $α\alpha$ (0≤ $α\alpha$ ≤1)，则称该数据集的披露风险为 $α\alpha$ 。现有的隐私度量，可以统一使用披露风险来描述。

由此引申出 $l - d i v e r s i t y$

信息缺损：

信息缺损表示为，经过隐私保护技术处理后数据的信息丢失，是针对发布数据集质量的一种度量。最小信息缺损原则，通过比较原始数据和匿名数据的相似度来衡量隐私保护的效果。信息缺损越小，说明发布数据集的有效性越高。但是，这种度量原则需要考虑准标志符巾每个属性的每个取值的泛化和隐匿带来的信息缺损，计算代价较高，适用于对单个属性进行度量。

ILoss[7]度量标准，要求检查每条记录准标志符中每个属性的取值泛化带来的信息缺损，进而计算出每条记录泛化后的信息缺损，再根据每条记录的信息缺损，计算整个发布数据集的信息缺损。

因此出现了如下几种数据隐私发布手段：

1、基于数据失真

据失真技术，那通过扰动原始数据来实现隐私保护。数据扰动的基本思想是隐藏真实的原始数据，只呈现出数据的统计学特征，具体地讲，经过扰动之后，攻击者通过发布的失真数据，不能重构出真实的原始数据，即不能发现真实的原始数据。并且．失真后的数据仍然保持某些性质不变，即利用失真数据得出的某些信息等同于从原始数据上得出的信息。

数据交换足一种基本的扰动技术，足在记录之间交换数据的值，保留某些统计学特征而不保留真实数值。另外一种技术是随机化，是对原始数据加入随机噪声从而隐藏真实数值。值得注意的是，任意对数据进行随机化，并不能保证数据和隐私的安全竭]，因为利用概率模型进行分析，可能揭露随机化过程中的众多性质。

2、基于数据加密

基于数据加密的隐私保护技术，多用于分布式应用中，是通过密码机制实现他方对原始数据的不可见性以及数据的无损失性，以实现隐私保护。

如安全多方计算

3、基于限制发布

所谓限制发布，是指不发布或者发布敏感度较低的数据，即有选择地发布原始数据，以实现隐私保护。限制发布在隐私披露风险与数据敏感度之间进行折中，即保证隐私披露风险在一定阚值范围之内，有选择地发布敏感数据。当前此类技术的研究热点，集中于数据匿名化。数据匿名化一般采用两种基本操作，一种是抑制，即不发布某些数据项；另一种是泛化，即对数据进行更概括、抽象的描述。数据匿名化的研究重点，主要是设计更好的匿名化原购，使发布数据既能很好地保护隐私，又具有较大的使用价值。同时，针对特定的匿名化原则，设计更为高效的匿名化算法。

如K-匿名技术

但是以上的几种隐私保护手段都具有相当大的局限性：

第一：对攻击者的能力具有限制

第二：没有严格的数学框架体系证明

第三：数据可用性和隐私保护程度关系难以平衡

因此2006年，D.Work提出了差分隐私。差分隐私保护采用添加噪声的技术使敏感数据失真，是基于数据失真的隐私保护技术。虽然其基于数据失真技术，但所需加入韵噪声量与数据集的大小无关。因此，即使对于大型数据集，也只需添加极少量的噪声，就可以达到高级别的隐私保护。此外，差分隐私保护定义了一个极为严格的攻击模型[2“，并对隐私披露风险给出了定量化的表示和证明。差分隐私保护可以保证，在数据集中删除或添加一条数据，不会影响到查询结果。因此，即使在最坏情况下，攻击者已知除某条记录之外的所有敏感数据，仍然可以保证不泄露这条记录的敏感信息。差分隐私保护极大地保证了数据的可用性，同时大大降低了隐私泄露的风险

2、差分隐私是什么？涉及到哪些实体类型？有哪些差分隐私类型

差分隐私（Differential Privacy）的差分体现于何处呢？究竟何又为差分呢？

我们试想一下这样的一个例子：

我们有一个记录了某个社区的艾滋病病人的数据库，为了保证这些人的个人信息，我们对数据库的查询作出了限定，即每次的查询都必须要是统计查询且得到的信息的条目数量必须大于N，保证个人的信息不会被直接查询到。

但是在这种情况下我们可以通过差分攻击的手段来得到某一个人的具体信息：

Step1：查询整个数据库中的艾滋病病人的数量 $N_1$

Step2：查询整个数据库中名字不叫"Alex"的艾滋病病人的数量 $N_2$

Step3：在不考虑重名的情况下，若 $N_2$ 和 $N_1$ 相差为1则意味着Alex没有艾滋病

由此通过这种差分攻击的手段我们可以查询到某个人的具体信息，造成了隐私泄露问题

$(img-fFUuax0e-1591717138946)(D:\写作\差分隐私—完整学习报告.assets\1565421354680.png)]$

所以差分隐私也就应运而生，这项技术要解决的也正是这类问题。在差分隐私的保护下，任何单条记录在数据库中的有无不影响算法的输出结果，所以也就能实现个人隐私的保护。

2.1、中心化差分隐私和本地化差分隐私

差分隐私依据数据收集分析发放中保护的对象不一样可以分为两种差分隐私类型：中心化差分隐私和本地化差分隐私。

一般的数据收集分析；流程如下：

数据收集分析流程

数据收集：各个用户将自身的数据上传到第三方

数据分析：第三方利用所收集到的数据进行数据分析

结果发布：第三方将数据分析结果公开发布

即如图，依据隐私保护的目的和第三方是否可信可以将差分隐私分为中心化差分隐私和本地化差分隐私：

中心化差分隐私：认为第三方是可信的，因此主要保护的是数据收集分析后的结果发放过程，差分隐私保护机制运行在可信第三方上。
本地化差分隐私：认为第三方是不可信的，所以本地差分隐私保护的是用户上传数据到第三方的过程，差分隐私机制运行在各个用户的本地。

中心差分隐私和本地化差分隐私区别

2.1.1、中心化差分隐私：

首先我们要明白两个相邻数据集的概念，在这里 $D$ 和 $D ’$ 具有相同的属性结构，在有界的DP(Differential Privacy)中，相邻数据集是可以通过替换某一项数据得到的，而对于无界的DP，相邻数据集则是通过增加或者加减一项数据得到，即后者中的数据集大小有差别。由于减掉一项元素再加一项元素等价于替换一项元素，因此在这里我们只讨论无界的DP情况。

一个算法 $A$ 应用于数据集 $D$ 上会得到一个结果 $t$ ，即 $A (D) = t$ ，同样把该算法运用于D的邻近数据集 $D ‘$ 上得到 $t^{'}$ ，即 $A (D^{'}) = t^{'}$ ，倘若没有对这两项运算进行一定的处理，那么结果就可能出现由 $t^{'} - t$ 透露出 $D^{'} - D$ 的信息问题。因此我们差分隐私的主要思想就是对算法得到的结果进行混淆，使得对于临近数据集，我们得到相同结果即 $t^{'} - t = 0$ 的概率保持在一定范围内，这样就可以在一定程度上抵御差分攻击。

$ϵ−\epsilon-$ 差分隐私的数学定义如下：

论文中的差分隐私定义

这两个输出同样结果的概率的相差幅度不能太大，这样而这个幅度就由 $ϵ\epsilon$ 进行调控，其中 $ϵ>0\epsilon>0$ 我们称为隐私预算，当 $ϵ=0\epsilon = 0$ 的时候此时隐私保护能力最强，即 $P r (A (D) = t) = P r (A (D^{'}) = t)$ ，但是此时由于输出相同结果的概率一致，原来的数据分布被破坏，导致数据的可用性很差。所以一般在实际的情况中，我们会提高隐私预算 $ϵ\epsilon$ 使得既能保证数据的可用性又能达到差分隐私保护。

根据差分隐私的数学定义可以推导出以下的性质定理：

1、后加工不变性（Posting-processing）：

若 $A_1(*)$ 满足 $ϵ−DP\epsilon-DP$ ，则对于任意复合函数 $A_2(*)$ 也有， $A_2(A_1(*))$ 也满足 $ϵ−DP\epsilon-DP$

后加工不变性
2、串行合成性（Sequential composition）：

对于 $A_1(D)$ 满足 $ϵ1−DP\epsilon_1-DP$ ， $A_2(s,D)$ 满足 $ϵ2−DP\epsilon_2-DP$ 则有， $A_2(A_1(D)，D)$ 满足 $(ϵ1+ϵ2)−DP(\epsilon_1+\epsilon_2)-DP$

在这里插入图片描述

而该串行合成性可以扩展到多个算法复合，对一系列满足 $ε_1$ - differential
privacy， $ε_2-$ differential privacy， ……， $ε_k$ - differential privacy 的 k 个算法，若将这
$k$ 个算法顺序施加到一个数据集 $D$ 上，则合成后的算法满足 $ε_1+ε_2+……+ε_k)$ -
differential privacy

在这里插入图片描述
3、并行合成性（Parallel Composition）：

若将数据集 $D$ 划分为 $k $个不相交的子集$ D_1,D_2,……,D_K$ 并对每个子集施加满足$ε_1,ε_2,……,ε_k $的差分隐私算法，则合成后的总数据集满足 $max(ε_1,ε_2,……,ε_k)$

最低0.47元/天解锁文章

6 条评论

sjping2011 2021.08.26
写的不错，遗憾的是没有列出参考文献！导致可读性弱

Vegebun 2020.11.19
看群主应该是中文综述和英文综述结合的，和我最近看的好像hh，写的不错

kallalaldjkf 2020.08.13
请问这篇文章的title是什么？
- stulky回复kallalaldjkf 2021.11.18
  Differential Privacy: From Theory to Practice
- sjping2011回复Vegebun 2021.08.26
  文献类型是啥？书or教材?
- Vegebun回复kallalaldjkf 2020.11.19
  Differentially Private Data Publishing and Analysis，刚好最近在看，作者是华科的