简单的差分隐私与差分隐私算法分析

原创

已于 2023-05-23 15:00:36 修改 · 1.1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #database #安全 #密码学 #可信计算技术

于 2023-04-02 22:20:38 首次发布

差分隐私是一种防范差分攻击的技术，通过在计算结果中引入噪声来保护用户数据的隐私。它不保护计算过程，且可能导致结果误差，但能抵御一定数量的攻击。算法设计涉及全局敏感度计算和噪声添加，如使用拉普拉斯噪声实现。隐私损失参数平衡回答准确性和隐私保护。差分隐私常用于确保数据集统计分析时的用户隐私。

介于网上对于差分隐私的介绍大多停留在定义上面，本文将简单介绍差分隐私以及算法设计，仅仅用作直觉上和概念上的丰富，没有详细计算过程，部分地方也比较粗略，请多多包涵。详细内容请阅读相关文献书籍。BRB/04/02

差分隐私是一种技术手段，用于防范对于算法的差分攻击。差分攻击简单的说，把算法想象为一个黑箱，输入数据到黑箱当中返回输出，发布输出，而攻击者则利用相似的数据集（仅有一个或一小部分不同）放入黑箱中，然后得到各自的输出，然后通过输出判断数据集的差异，从而导致输入信息的泄露。一般来说，输入数据来自用户，这样用户个体的信息将遭到泄露。

差分隐私技术最初来自密码学，简单的理解，可以认为是一种对于计算结果的“加密”，但是对应的“解密”过程是比较困难的，注意这里我没有说绝对，在庞大的查询数量之下还是会泄露隐私，但这里我们有了一种手段，去了解自己的算法模型什么时候会“撑不住”了。

需要注意的是，差分隐私技术保护的是输出，即计算结果，并不保护过程。并且差分隐私技术会导致结果产生一定的误差，如果场景需要绝对准确的结果，则不适用差分隐私技术。

在改为差分隐私版本的算法之前，需要注意的是，原算法可以是确定性算法、近似算法、随机算法、或二者交集，但是差分隐私处理后的算法一定属于随机算法，因为确定性算法无法保证差分隐私的定义（比较特例的情况除外，实际意义不大）。

下面列举一个简单的差分隐私算法。
任务：有一组数据D，仅记录n个用户ID和属性（取值0,1），将D输入算法A，返回拥有属性0的用户的占比(通常称这种查询为counting query)。
根据描述，算法A：
Input: $D$ = $id,feature)^{n}$
Output: $Z$
Algorithm: $Z$ = $D∣D(feature)=0}∣n\frac{|\{D|D(feature)=0\}|}{n}$