数据隐私攻击类型及防范策略
1. 引言
在数据发布过程中,我们需要思考如何避免各类隐私攻击。Netflix数据集就展示了关联攻击和挑出攻击的威力,这些都是常见且需要我们学习并避免的攻击方式。
2. 关联攻击
2.1 关联攻击原理
关联攻击利用多个数据源,将它们连接起来以重新识别个人或获取更多信息来识别个人。一般来说,当攻击者拥有一个能轻松与另一个数据集相连的辅助数据源时,关联攻击就可能成功,就像Netflix Prize和IMDB数据集的情况一样。
2.2 评估潜在关联攻击的方法
- 主动寻找潜在数据 :思考是否有可查看或抓取的公共网站,能让人轻松收集用于关联攻击的信息;是否有已知的公共数据源能轻易与你要提供的数据相连;近期是否有大型数据泄露事件,其中的数据可能被用于以损害个人利益的方式关联个人。
- 采用先进隐私保护技术 :确保所有公开发布的数据都经过最先进的隐私保护,如差分隐私。这有助于防止未来可能发布的辅助信息带来的风险。
2.3 判断数据是否易关联的方法
可以通过查看数据集和数据点本身的唯一性来判断数据是否易关联,例如使用像Google的KHyperLogLog论文中的基数分析方法。当收集了大量数据,但未正确标记与个人相关的数据,或者治理和文档工作未妥善实施时,就会对隐私造成严重威胁。基数分析可以帮助确定哪些数据是可重新识别的。
研究人员开发了一种结合两种不同哈希机制的两部分数据结构。首先是K Min Values哈希机
超级会员免费看
订阅专栏 解锁全文
466

被折叠的 条评论
为什么被折叠?



