我的隐私计算学习——差分隐私

本文介绍了差分隐私这一隐私计算安全保护技术,它与密码学算法不同,可提高数据查询准确性并减少记录识别机会。文中阐述了其参数特性、工作模式、添加噪声机制,介绍了开源框架SmartNoise,还提及在机器学习的应用场景及结合深度学习框架的开源库,需平衡隐私与可用性。

此篇是我笔记目录里的安全保护技术(六),前篇可见:

隐私计算安全保护技术(一):我的隐私计算学习——混淆电路-优快云博客

隐私计算安全保护技术(二):我的隐私计算学习——秘密共享-优快云博客

隐私计算安全保护技术(三):我的隐私计算学习——门限签名-优快云博客

隐私计算安全保护技术(四):我的隐私计算学习——同态加密-优快云博客

隐私计算安全保护技术(五):我的隐私计算学习——零知识证明-优快云博客

笔记内容来自多本书籍、学术资料、白皮书及ChatGPT等工具,经由自己阅读后整理而成。


(六)差分隐私

严格来说,差分隐私(Differential Privacy,DP)不算是密码学中的一种手段。首先,密码学方法是对明文数据进行加密处理以达到信息隐藏的目的。差分隐私与其他传统的隐私保护技术一样,未使用密码学方法处理数据,因此无法达到将数据完全随机化的效果。差分隐私和密码学算法是完全不同的两种隐私保护机制。差分隐私可以提高从统计数据库进行数据查询的准确性,同时帮助最大限度减少识别其具体记录的机会。差分隐私技术可以做到攻击者不会通过多次查询而获得新样本的隐私信息,其核心思想是对于任意两个相差一条记录的数据集 D 和 D' (D 和 D' 也被称为相邻数据集)以及任意输出 O,要求添加了随机扰动的查询机制 M(一般是一些统计信息的查询,比如均值、方差)都能满足以下这条式子:

image-20230320140852742

其中 P 是通过查询机制 M 获得输出 O 的概率,这意味着在数据集 D 中一条数据发生变化后通过 M 得到 O 的概率的变化会非常小,概率 P 的变化范围由公式中的 \epsilon 决定,这时称查询机制 M 满足 \epsilon- 差分隐私。在差分隐私的应用中,一般需要程序员设置 \epsilon 值。

在普通情况下,\epsilon 越小,数据可用性越低。\epsilon 越大,隐私保护越弱,但查询结果可以更精确。查询次数越多,隐私保护越弱,攻击者可以通过多次查询来分析结果的分布情况,从而推算真实数据。注意,差分隐私这个 \epsilon 参数具有可组合性的特性。

有些差分隐私机制还引入了 \sigma 参数来控制隐私保护级别。可以这么直观地理解,\epsilon 是单条数据对所有数据包含信息的影响的上界(即去掉这条信息会对原来数据库包含信息产生的最大影响),\sigma 则是这个上界不成立的概率(即有多大概率 \epsilon- 差分隐私失效,从而产生隐私泄露的风险)。显然,\sigma 越小,安全性越高。

按原始数据的存储位置分类 按实现环境的交互方式分类
中心化差分隐私(CDP) 交互式差分隐私
本地化差分隐私(LDP) 非交互式差分隐私

在交互式环境下,用户向数据系统提出查询请求,数据系统根据查询请求对数据集执行差分隐私保护操作并将结果反馈给用户,用户看不到数据集全貌,从而保护数据集中的个体隐私。在非交互式环境下,差分隐私系统针对所有可能的查询,在满足差分隐私的条件下一次性发布所有查询结果,或者发布一个原始数据集的“净化”版本。这是一个不精确的数据集,用户可对该版本的数据集自行进行所需的查询操作。交互式和非交互式差分隐私的工作模式如下图所示:

评论 5
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值