1.引言
隐私的定义
“数据隐私技术的目标是,允许数据分析方获取隐私数据中蕴含的趋势,但不会泄露特定个体的信息。”
“这一定义不包括保证安全性的技术,如加密技术”
“安全与隐私之间的差异:隐私技术涉及到故意发布信息,并试图控制从发布信息中学到什么。安全技术通常会阻止信息的泄露,并控制数据可以被谁访问”
“只有当安全对隐私有重要影响时,我们才会讨论相应的安全技术”
差分隐私
文章聚焦在差分隐私
“差分隐私(及其变体)是我们已知的唯一能从数学角度提供可证明隐私保护能力的方法”
2.去标识/匿名化
个人标识信息:能唯一标识一个个体的信息,有很多例子:身份证号、姓名、电话号码等
去标识:移除数据的标识信息
关联/链接攻击:寻找辅助信息【包含个人标识信息的数据】和去标识数据库的重叠列,即重识别个体。
“数据库领域将此类匹配操作称为关联(JOIN) 两个数据表。我们可以使用Pandas的 merge 函数实现此操作。”
karries_row = adult_pii[adult_pii['Name'] == 'Karrie Trusslove']
pd.merge(karries_row, adult_data, left_on=['DOB', 'Zip'], right_on=['DOB', 'Zip'])
“拉坦娅·斯威尼(Latanya Sweeney)的研究结果表明 1,组合 使用出生日期、性别、邮政编码,可以唯一重标识出87%的美国公民”
差分攻击:发布聚合是不能保护隐私的,差分攻击可以攻击聚合结果
“考虑对数据集中某个大分组执行两次求和问询(第一个是对整个数据集进行问询,第二个是对除一条记录外的所有记录进行问询):”
“如果我们得到了这两个问询的回答,我们可以简单地对结果求减法,从而准确获得凯莉的年龄!”
3.k-匿名
“𝑘-匿名性的定义用数学描述了我们的直观 想法:一部分辅助信息不应该”过多地”缩小个体所属记录的可能范围”
“将数据集按照准标识(Quasi-Identifier)分组,使每个分组中的个体都拥有相同的准标识。如果每个分组的大小都
数据隐私技术:差分隐私与k-匿名

文章介绍了数据隐私技术的核心概念,重点关注差分隐私和k-匿名性。差分隐私通过添加噪声来保护个体信息,而k-匿名通过数据分组防止个体被唯一识别。同时,文章探讨了去标识化和匿名化过程中的关联/链接攻击,以及泛化数据面临的挑战,如异常值问题。
最低0.47元/天 解锁文章
1216

被折叠的 条评论
为什么被折叠?



