聚类基 K - 匿名化算法的深入剖析
1. K - 匿名化概述
K - 匿名化是一种重要的数据处理技术,旨在保护数据中的个人隐私。它将包含准标识符(QIDs)和敏感属性(SAs)的表 T 划分为多个组,使得每个组内至少有 k 个元组,并且这些元组在所有 QIDs 上的值相同。
例如,有如下原始数据表格:
| Age | Postcode | Disease |
| — | — | — |
| 20 | NW | HIV |
| 45 | SO | Cancer |
| 25 | NW | HIV |
| 21 | NW | HIV |
| 47 | SO | Cancer |
| 50 | SO | Cancer |
经过 3 - 匿名化处理后,可能得到如下表格:
| Age | Postcode | Disease |
| — | — | — |
| [20 - 45] | {NW,SO} | HIV |
| [20 - 45] | {NW,SO} | HIV |
| [20 - 45] | {NW,SO} | Cancer |
| [25 - 50] | {NW,SO} | HIV |
| [25 - 50] | {NW,SO} | Cancer |
| [25 - 50] | {NW,SO} | Cancer |
这个过程虽然会造成一定的信息损失,但能增加识别个人隐私信息的难度,使得个体与特定敏感属性值关联的概率不超过 1/k。
2. 最优性标准
在进行
超级会员免费看
订阅专栏 解锁全文
2264

被折叠的 条评论
为什么被折叠?



