基于效用的隐私保护数据转换方法综述
在数据发布和分析中,隐私保护数据处理至关重要,但往往会导致信息损失。因此,在保护隐私的同时,我们希望尽量减少效用损失。下面将介绍几种常见的隐私模型、数据效用度量方法,以及基于效用的隐私保护方法。
1. 隐私保护与信息损失
高级数据分析对个人隐私构成严重威胁,为解决这一问题,人们提出了多种隐私保护方法,如匿名化和扰动。以 k - 匿名化为例,它通过泛化或抑制某些个人信息,使发布数据集中的任何个体与其他 k - 1 个个体无法区分。然而,这种隐私保护方法会导致信息损失,极端情况下数据可能变得毫无用处。
例如,在客户分析数据集中,{年龄、教育程度、邮政编码} 可作为准标识符,年收入是敏感属性,目标客户是分类标签。为保护个人年收入信息,要求实现 2 - 匿名化。不同的 2 - 匿名化结果在回答查询时表现不同:
| 表格 | Q1(29 岁以下客户数量) | Q2(年龄 25、教育程度为学士、邮政编码 53712 的个体是否为目标客户) |
| — | — | — |
| 表 9.2b | 2 | Y |
| 表 9.3c | [0, 4] | Y 和 N 各 50% 概率 |
从这个例子可以看出,不同的匿名化方式会导致不同程度的信息损失,且数据效用取决于其应用场景。
2. 基于效用的隐私保护的定义与挑战
基于效用的隐私保护有两个目标:保护私人信息和尽可能保留数据效用。隐私保护是硬性要求,而效用是需要优化的指标。目前,这方面的研究刚刚起步,面临以下挑战:
- 效用度量 :如何为不同应用场景建模数据效用是关
超级会员免费看
订阅专栏 解锁全文
446

被折叠的 条评论
为什么被折叠?



