数值属性动态泛化层次结构再探
1. 研究背景与贡献
在数据匿名化领域,有多种定位数值属性切割点的方法,如递归二元离散化、最小描述长度、基于熵的离散化、卡方检验、松弛误差和面向属性的归纳等。不过这些方法主要用于数据挖掘前的数据预处理,并非专门针对数据匿名化设计。
研究有以下贡献:
- 改进了现有的数值属性动态层次结构创建方法。新方法不再基于节点间最小距离的聚合选择方式,而是选择合并后能创建最小可能节点的两个相邻节点。
- 探讨了生成的层次结构在匿名化过程中的使用方式,并介绍了几种评估数值准标识符属性值泛化过程中信息损失的现有度量方法。
- 在Adult数据集上进行了一系列实验。使用新方法、现有方法、预定义层次结构以及无层次结构(无层次泛化)生成k - 匿名掩码微数据集,并使用相同的匿名化算法比较不同泛化层次结构生成的数据集质量。
2. 数值属性动态层次结构
初始微数据(IM)的属性分为三类:
- 标识符属性:如姓名和社保号,可用于识别元组。
- 准标识符属性:如邮政编码和性别,可能被入侵者知晓。
- 机密或敏感属性:如诊断和收入,假设入侵者未知。
发布的数据集中(掩码微数据,MM)仅保留准标识符和机密属性,移除标识符属性以确保数据隐私。但入侵者仍可能通过外部数据集和掩码微数据中的准标识符属性值进行记录链接来识别个体。为避免这种情况,常对初始微数据的准标识符属性值进行泛化和抑制处理,以实现k - 匿名性。
k - 匿名性的相关定义如下:
- QI - 簇 :给定一个微数据,QI - 簇由该微数据中所有准标识符属性值
超级会员免费看
订阅专栏 解锁全文
1308

被折叠的 条评论
为什么被折叠?



