数据隐私保护:概念、指标与技术
1. 数据隐私风险度量的信息论方法
1.1 基本概念
在数据隐私保护领域,现有的隐私度量指标,如 k - 匿名性、ℓ - 多样性和 t - 接近性,为数据集中的每个条目定义了最低要求。然而,由于互信息是一个平均量,使用互信息来表示平均披露风险的框架无法完全表达单个条目的这些条件。隐私是一个个体概念,应该为每个个体单独衡量。为了克服这一局限性,我们可以考虑单符号信息,即单个记录对互信息的贡献,并相应地定义披露风险度量。
从披露的角度来看,数据集中的属性可以分为以下几类:
- 标识符 :能唯一识别受访者的属性,例如社会安全号码(SSN)。
- 准标识符(QIs) :这些属性组合起来可以与外部信息关联,从而重新识别部分或全部受访者,或者减少对他们身份的不确定性,如出生日期(DoB)、邮政编码(ZIP)和性别。
- 敏感属性 :包含受访者敏感信息的属性,如疾病、工资和政党。
存在两种类型的披露:身份披露和属性披露。在对原始数据进行匿名化时,我们希望防止这两种类型的披露。
1.2 传统隐私度量指标
- k - 匿名性 :要求在匿名化数据集中,每个准标识符属性的组合(QI 组)至少由 k 条记录共享。较大的 k 值表示匿名化数据集的身份披露风险较低,但它不一定能防止属性披露。
- ℓ - 多样性 :该条件要求对于每个准标识符属性的组合,每个敏感属性
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



