利用小波变换实现群体匿名性
1 数据匿名方法概述
在过去十年里,数据匿名领域有了诸多研究成果。数据保密披露控制(SDC)方法主要分为两大类:随机化方法和基于分组的匿名化方法。
1.1 随机化方法
随机化方法在数据收集时易于实现,因为添加到记录中的噪声与其他记录的值相互独立,并且能较好地保留数据的实用性,尤其是数据模式和关联规则。然而,若存在其他公开信息源与待掩码数据有交集,隐私很可能会被侵犯,特别是异常值记录更容易被识别出来。
1.2 基于分组的匿名化方法
以 k - 匿名性为例,其核心思想是确保数据集中每个属性值组合至少对应 k 个受访者。为实现这一目标,有多种方法可供选择。
近年来,小波变换(WT)也被用于数据匿名,此前它主要应用于信号处理领域。虽然已有一些方法可实现个体匿名,但为解决群体匿名问题,本文提出了一种基于小波变换的新方法,旨在通过重新分配近似值来实现匿名性,同时固定细节部分以保留数据实用性。
2 理论背景
2.1 一般定义
假设微文件数据以类似表 1 的表格形式组织:
| | (w_1) | (w_2) | … | (w_q) |
| — | — | — | — | — |
| (r_1) | (z_{11}) | (z_{12}) | … | (z_{1q}) |
| (r_2) | (z_{21}) | (z_{22}) | … | (z_{2q}) |
| … | … | … | … | … |
| (r_m) | (z_{m1}) | (z_{m2}) | … |
超级会员免费看
订阅专栏 解锁全文
81

被折叠的 条评论
为什么被折叠?



