敏感微观数据保护与披露风险评估
1. 合成数据生成与特性控制
在合成数据生成过程中,为了更好地控制其单变量统计特性,我们采用经验累积分布函数(empirical cdf)对每个总体变量进行处理。构建经验累积分布函数的过程较为直接。我们希望算法具有灵活性,能够生成与原始数据集大小不同的合成数据集。若原始数据集有 $n_s$ 行,我们可能会生成具有 $N$ 行的合成数据集。当 $N$ 大于 $n$ 时,在使用经验累积分布函数时就需要进行外推。
同时,为保护数据库中极端异常值的真实值,我们对经验累积分布函数进行了修改,具体步骤如下:
1. 选择分数值 $p$ 和非零容差 $T$。
2. 若 $\frac{|Y(j) - Y(j - 1)|}{Y(j)} > T$,则用 $pY(j) + (1 - p)Y(j - 1)$ 替换任何顺序统计量 $Y(j)$。
2. 可识别子群体的处理
当分类变量能够识别出具有明显不同分布的子群体时,无论是不同的秩相关性还是单变量特征,能保留这种结构的合成数据集对分析人员会更有用。为实现这一点,对于这些变量组合具有特定值的子群体,可以单独抽取拉丁超立方抽样(LHS)样本。
例如,可能考察的分类变量包括行业类型、地质描述符、收入类别等。通过对这些子群体分别应用上述程序,合成数据集中的每个子群体都能具有自己的统计特征,因为基于 LHS 的合成数据会重现数据中识别出的每个子群体的统计特征。
为了能够测量总体中每个子群体的秩相关性,每个子群体必须包含足够的观测值。若不满足这一基本条件,子群体必须与其他密切相关的子群体合并成一个更大的单元,直到能够以所需的精度确定所得子群体的秩相
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



