基于聚类的频率 l-多样性匿名化与磁盘完整性保护技术
1. 基于聚类的频率 l-多样性匿名化
在数据隐私保护领域,频率 l-多样性是一种重要的隐私保护模型。它要求在每个等价类中,敏感属性的每个值出现的频率不超过 |e|/l 次(e 为等价类)。下面详细介绍相关概念和算法。
1.1 关键概念
- 等价类 :给定关系 R 的实例 r 和属性集 Q ⊆ R,e ⊆ r 是关于 Q 的等价类,当且仅当 e 是 r 中在 Q 属性上取值相同的元组的多重集(忽略空等价类)。
- 频率 l-多样性 :关系 R 的实例 r(Q, s) 是频率 l-多样的,当且仅当对于关于 Q 的每个等价类 e,每个可能的值 v ∈ adom(s),p(e, v) ≤ 1/l。其中,adom(s) 是 s 的活动域,p(e, v) = |{ {t|t ∈ e ∧ t.s = v}}|/|e|。
1.2 重要命题
- 命题 1(资格条件) :如果 r(Q, s) 是频率 l-多样的,那么最多 |r|/l 个元组可以具有相同的 s 值。
- 命题 2 :给定正数 l,r(Q, s) 至少有一个频率 l-多样的泛化,当且仅当 l ≤ lmax。其中,lmax = |r| / Maxv(|{ {t|t∈r∧t.s=v}}|)。