数据发布隐私保护与安全 API 分析
1. 数据发布中的差分隐私
1.1 隐私问题
在数据发布场景中,传统方法通常将微数据表格发布带来的披露风险,衡量为攻击者正确猜出表格中受访者身份或敏感属性值概率的增加。然而,这些方法未考虑到微数据表格还可能被用于推断未在表格中呈现的受访者信息。
有一种隐私定义指出,从统计数据库中能了解到的关于受访者的任何信息,都应能在不访问该数据库的情况下获取。但实际上,旨在保留数据实用性的隐私感知微数据发布技术,无法实现这种理想的隐私状态。因为只有空数据集才能确保绝对防止信息披露,而且数据集的发布可能会侵犯任何受访者的隐私,无论其是否在数据集中有体现。
例如,发布的数据集可用于计算城市 A 中每个种族群体的人均年收入,且该信息并非公开可得。若 Alice 知道 Bob 的年收入比城市 A 中亚洲人的平均年收入多 1000 美元,那么结合发布的数据集,Alice 就能推断出 Bob 的年收入,而这与 Bob 是否在发布的数据集中并无关联。现有的微数据表格保护方案,默认未包含在数据集中的个人隐私无风险,因此无法防止此类攻击。
1.2 差分隐私解决方案
差分隐私是一种新颖的隐私概念,旨在确保微数据表格的发布不会泄露任何个人(无论是否由表格中的元组表示)的敏感信息。具体而言,如果与受访者 p 相关的元组 tp 加入数据集后,不改变恶意接收者正确识别与 p 相关的敏感属性值的概率,那么该数据发布就是安全的。
更正式地说,给定仅相差一个元组 tp 的两个数据集 T 和 T’,对数据集操作的任意随机函数 K 满足 ϵ - 差分隐私,当且仅当 (P(K(T) \in S) \leq e
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



