最近看了一篇论文《Collecting and Analyzing Multidimensional Data with Local Differential Privacy》,其中最关键的就是本地化差分隐私技术(以下简称LDP)在收集分析数据时的各种实现机制:
一、拉普拉斯机制
1、假设每个用户的数据记录
包含一个数值属性,其值位于范围
内;
2、定义一个输出扰动记录的随机函数:,其中
表示遵循尺度
的拉普拉斯分布的随机变量,其具有以下概率密度函数:
(期望为0、方差为
的Laplace分布的概率密度函数);
3、显然,该估计是无偏的,因为在每个
中注入的拉普拉斯噪声
具有零均值(即期望为0)且
的方差是
(即方差为
);
4、一旦数据采集者接收到所有被扰动的元组,它就只计算它们的平均值作为误差等级为
(不知道怎么得出来的~)的均值估计值。
简而言之,用户将数据添加一个拉普拉斯噪声后发送给数据收集者,数据收集者对得到的数据元组先求平均值后再对外发布。
二、拉普拉斯机制变体
SCDF由Soria-Comas和Domingo-Ferrer提出,可以获得多维数据的改进结果精度;Stairease mechanism由Geng 等人提出,实现了无界输入值的最佳性能。具体而言,对于单个数值,两种方法都注入随机噪声
,该随机噪声
来自以下分段恒定概率分布:
在SCDF中,和
;在Stairease mechanism中,
和
。
注意:Stairease mechanism中的最优性结果不适用于有界输入的情况(有界输入是指输入集合数据分布是有上界或者下界的,即均大于或者均小于某个值)。
这两种方法就是改变了噪声的注入方式。
三、Duchi等人的解决方法
杜奇等人提出了一种在LDP下扰动多维数据元组的方法。 以下算法说明了Duchi等人对于一维案例的解决方案:
特别的是,给定一个元组[-1,1],算法返回一个扰动的元组
,它等于
或
,具有以下概率:
注意:a.以上两概率之和为1;
b.当趋近于0时,两概率趋近于相等,为
;
c.当不趋近0时,
的概率大于
的概率。
杜奇等人证明是输入值
的无偏估计。 另外,
的方差是:
因此,当 = 0时,
取最坏(最大)方差,等于
。 在接收到该算法输出的扰动元组时,收集者简单地计算所有用户的属性的平均值以获得估计的平均值。
以上解决方案的缺点:下图说明了拉普拉斯机制和Duchi等人的解决方案在变化时返回的噪声值最坏(最大)方差。当时,Duchi等人的解决方案比拉普拉斯机制提供的方差小得多,但是当
时,后者明显优于后者。
回想一下,Duchi等人的解决方案总返回 或
。因此,该解决方案输出的噪声值
总是具有绝对值
,因此无论隐私预算有多大,
= 0时
的方差总是大于1。相反,拉普拉斯机制产生
的噪声方差,其随着增加而呈二次方减小,由此在
大的时候是优选的。然而,当
小时,分母
会导致很大的噪声方差,而Duchi等人的解决方案不会遇到这个问题,因为它的方差被确定在相对较小的范围内
。
噪声方差的大小会直接影响扰动数据的方差大小,扰动数据方差越小说明数据之间的相似度越高,即差分隐私保护越成功,所以各种实现机制以方差趋小为目的。
下一篇讲一下改进后的实现机制。