动手学差分隐私第1-4章学习笔记

原创

已于 2023-04-17 17:23:39 修改 · 690 阅读

CC 4.0 BY-SA版权

文章标签：

于 2023-04-17 17:20:32 首次发布

文章介绍了数据隐私技术的核心概念，重点关注差分隐私和k-匿名性。差分隐私通过添加噪声来保护个体信息，而k-匿名通过数据分组防止个体被唯一识别。同时，文章探讨了去标识化和匿名化过程中的关联/链接攻击，以及泛化数据面临的挑战，如异常值问题。

1.引言

“数据隐私技术的目标是，允许数据分析方获取隐私数据中蕴含的趋势，但不会泄露特定个体的信息。”

“这一定义不包括保证安全性的技术，如加密技术”

“安全与隐私之间的差异：隐私技术涉及到故意发布信息，并试图控制从发布信息中学到什么。安全技术通常会阻止信息的泄露，并控制数据可以被谁访问”

“只有当安全对隐私有重要影响时，我们才会讨论相应的安全技术”

文章聚焦在差分隐私

“差分隐私（及其变体）是我们已知的唯一能从数学角度提供可证明隐私保护能力的方法”

个人标识信息：能唯一标识一个个体的信息，有很多例子：身份证号、姓名、电话号码等

去标识：移除数据的标识信息

关联/链接攻击：寻找辅助信息【包含个人标识信息的数据】和去标识数据库的重叠列，即重识别个体。

“数据库领域将此类匹配操作称为关联（JOIN）两个数据表。我们可以使用Pandas的 merge 函数实现此操作。”

karries_row = adult_pii[adult_pii['Name'] == 'Karrie Trusslove'] 
pd.merge(karries_row, adult_data, left_on=['DOB', 'Zip'], right_on=['DOB', 'Zip'])

“拉坦娅·斯威尼（Latanya Sweeney）的研究结果表明 ¹，组合使用出生日期、性别、邮政编码，可以唯一重标识出87%的美国公民”

差分攻击：发布聚合是不能保护隐私的，差分攻击可以攻击聚合结果

“考虑对数据集中某个大分组执行两次求和问询（第一个是对整个数据集进行问询，第二个是对除一条记录外的所有记录进行问询）：”

“如果我们得到了这两个问询的回答，我们可以简单地对结果求减法，从而准确获得凯莉的年龄！”

“𝑘-匿名性的定义用数学描述了我们的直观想法：一部分辅助信息不应该”过多地”缩小个体所属记录的可能范围”

“将数据集按照准标识（Quasi-Identifier）分组，使每个分组中的个体都拥有相同的准标识。如果每个分组的大小都