动手学差分隐私 第1-4章 学习笔记

数据隐私技术:差分隐私与k-匿名
文章介绍了数据隐私技术的核心概念,重点关注差分隐私和k-匿名性。差分隐私通过添加噪声来保护个体信息,而k-匿名通过数据分组防止个体被唯一识别。同时,文章探讨了去标识化和匿名化过程中的关联/链接攻击,以及泛化数据面临的挑战,如异常值问题。

1.引言

隐私的定义

“数据隐私技术的目标是,允许数据分析方获取隐私数据中蕴含的趋势,但不会泄露特定个体的信息。”

“这一定义不包括保证安全性的技术,如加密技术”

“安全与隐私之间的差异:隐私技术涉及到故意发布信息,并试图控制从发布信息中学到什么。安全技术通常会阻止信息的泄露,并控制数据可以被谁访问”

“只有当安全对隐私有重要影响时,我们才会讨论相应的安全技术”

差分隐私

文章聚焦在差分隐私

“差分隐私(及其变体)是我们已知的唯一能从数学角度提供可证明隐私保护能力的方法”

2.去标识/匿名化

个人标识信息:能唯一标识一个个体的信息,有很多例子:身份证号、姓名、电话号码等

去标识:移除数据的标识信息

关联/链接攻击:寻找辅助信息【包含个人标识信息的数据】和去标识数据库的重叠列,即重识别个体。

“数据库领域将此类匹配操作称为关联(JOIN) 两个数据表。我们可以使用Pandas的 merge 函数实现此操作。”

karries_row = adult_pii[adult_pii['Name'] == 'Karrie Trusslove'] 
pd.merge(karries_row, adult_data, left_on=['DOB', 'Zip'], right_on=['DOB', 'Zip'])

“拉坦娅·斯威尼(Latanya Sweeney)的研究结果表明 1,组合 使用出生日期、性别、邮政编码,可以唯一重标识出87%的美国公民”

差分攻击:发布聚合是不能保护隐私的,差分攻击可以攻击聚合结果

“考虑对数据集中某个大分组执行两次求和问询(第一个是对整个数据集进行问询,第二个是对除一条记录外的所有记录进行问询):”

“如果我们得到了这两个问询的回答,我们可以简单地对结果求减法,从而准确获得凯莉的年龄!”

3.k-匿名

“𝑘-匿名性的定义用数学描述了我们的直观 想法:一部分辅助信息不应该”过多地”缩小个体所属记录的可能范围”

“将数据集按照准标识(Quasi-Identifier)分组,使每个分组中的个体都拥有相同的准标识。如果每个分组的大小都

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值