匿名性度量:隐私保护的多维度探索
1. 隐私的定义与挑战
隐私保护在数据发布系统中至关重要,然而,要设计这样的系统,首先需要量化隐私或信息损失的概念。近年来,出现了众多隐私度量方法,涵盖统计、贝叶斯、信息论等多个领域。从法律角度看,隐私应具备可测量性、价值性和可操作性。
Ruth Gavison认为隐私包括保密性、匿名性和独处性。保密性关注他人获取我们信息的情况;匿名性涉及我们在公众视野中的曝光程度;独处性衡量他人对我们的物理访问程度。在信息保护方面,保密性和匿名性是思考隐私的有用方式,隐私保护措施也大多可归为这两类。
如果将隐私视为信息的保密性,那么隐私损失就是信息的泄露,可通过数据项被访问的概率、对手看到数据后的知识变化等方式来衡量。若从匿名性角度考虑,隐私泄露则以数据发布时的模糊程度来衡量,模糊程度越高,数据的匿名性越强。
隐私和效用之间存在着根本的矛盾。虽然加密信息似乎是保护隐私的有效方法,但在数据发布场景中并不适用。数据发布的目标是在保护机密信息的同时,向公众发布汇总信息,以实现数据的效用。例如,美国人口普查希望发布调查数据,供人口统计学家和公共政策专家分析总体趋势,同时避免泄露个人信息。
2. 数据匿名化方法
数据匿名化主要有三种方法:随机扰动、泛化和抑制。
- 随机扰动 :对于数值数据,可通过添加随机值进行扰动,即 $\tilde{x} = x + r$,其中 $r$ 是从适当分布中抽取的随机值。为避免简单平均消除扰动效果,通常会提前固定扰动值。对于非数值数据,扰动方法更为复杂,可能需要删除或插入随机项。随机扰动可分为输入扰动和输出扰动,输入扰动是对源数据
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



