4、数值属性动态泛化层次结构再探

最新推荐文章于 2025-10-08 09:56:13 发布

time3

最新推荐文章于 2025-10-08 09:56:13 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏：数据隐私与安全：从理论到实践文章标签：数值属性动态泛化层次结构数据匿名化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/time3/article/details/149900430

数据隐私与安全：从理论到实践专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数值属性动态泛化层次结构再探

1. 研究背景与贡献

在数据匿名化领域，有多种定位数值属性切割点的方法，如递归二元离散化、最小描述长度、基于熵的离散化、卡方检验、松弛误差和面向属性的归纳等。不过这些方法主要用于数据挖掘前的数据预处理，并非专门针对数据匿名化设计。

研究有以下贡献：
- 改进了现有的数值属性动态层次结构创建方法。新方法不再基于节点间最小距离的聚合选择方式，而是选择合并后能创建最小可能节点的两个相邻节点。
- 探讨了生成的层次结构在匿名化过程中的使用方式，并介绍了几种评估数值准标识符属性值泛化过程中信息损失的现有度量方法。
- 在Adult数据集上进行了一系列实验。使用新方法、现有方法、预定义层次结构以及无层次结构（无层次泛化）生成k - 匿名掩码微数据集，并使用相同的匿名化算法比较不同泛化层次结构生成的数据集质量。

2. 数值属性动态层次结构

初始微数据（IM）的属性分为三类：
- 标识符属性：如姓名和社保号，可用于识别元组。
- 准标识符属性：如邮政编码和性别，可能被入侵者知晓。
- 机密或敏感属性：如诊断和收入，假设入侵者未知。

发布的数据集中（掩码微数据，MM）仅保留准标识符和机密属性，移除标识符属性以确保数据隐私。但入侵者仍可能通过外部数据集和掩码微数据中的准标识符属性值进行记录链接来识别个体。为避免这种情况，常对初始微数据的准标识符属性值进行泛化和抑制处理，以实现k - 匿名性。

k - 匿名性的相关定义如下：
- QI - 簇 ：给定一个微数据，QI - 簇由该微数据中所有准标识符属性值

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。