数据发布中的隐私保护策略解析
在当今数字化时代,数据发布过程中的隐私保护至关重要。本文将深入探讨数据发布隐私保护的相关概念、问题及解决方案。
1. 敏感属性推断与存在性度量
数据持有者会设定一个最大置信度,以此限制数据接收者推断敏感属性值的能力。例如,在一个分类树中,患有胃癌的卡罗尔选择与胃相关的疾病作为守护节点。若数据接收者以高于设定概率推断卡罗尔患有胃溃疡、胃癌等与胃相关疾病时,就侵犯了她的隐私。而另一位受访者马特,认为公开他的疾病不算隐私侵犯,所以他将守护节点设为 ∅。
此外,还有一个重要的概念是敏感存在性。有学者提出用 δ - 存在性作为度量指标,来评估数据接收者识别个体是否存在于发布表中的风险。若发布的数据集满足 δ - 存在性,即对于所有元组 t,有 δmin ≤P(t ∈T |T ∗) ≤δmax ,其中 P(t ∈T |T ∗) 是数据接收者观察发布的微数据表格 T ∗ 后,正确猜测元组 t 属于发布数据集的概率。通过调整 δmin 和 δmax 的值,可以在数据效用和隐私保护之间找到平衡。较小的 [δmin,δmax] 范围有利于隐私保护,而较大的范围则有利于数据效用。
2. 基于分组的敏感关联保护方法
传统的数据隐私保护方法常采用泛化和抑制技术来保证 k - 匿名性、ℓ - 多样性、t - 接近性等隐私要求。然而,这些方法会导致信息损失,下面我们来分析其问题及解决方案。
2.1 泛化和抑制技术的问题
泛化和抑制技术会使发布的表格不如原始微数据表格完整和详细。发布的表格由等价类组成,准标识符的值不够精确,破坏了准标识符属性和敏感属性之间的相关性。例如,在分析传染病影响时,若性
超级会员免费看
订阅专栏 解锁全文
3923

被折叠的 条评论
为什么被折叠?



