微数据保护中的披露风险评估与信息损失度量
1. 数据处理方法
1.1 计算方法优化
提出了一种使用协方差矩阵 $Cov(X)$ 分解的更简单计算方法,优势在于无需应用非线性优化求解器,基本计算方法是已有方法的直接变体。由于加性噪声能保留均值 $\mu$ 并使协方差矩阵产生标量膨胀,可通过以下公式对掩码数据集 $Y$ 中的掩码数据记录 $y$ 进行重新缩放:
$y′ = \frac{1}{\sqrt{1 + d}}y - (1 - \frac{1}{\sqrt{1 + d}})\mu$
使得缩放后的数据集 $Y ′$ 的期望值为均值 $\mu$,且 $Cov (Y ′) = Cov (X)$。
1.2 重识别过程
记录链接过程旨在将两个文件 $A$ 和 $B$ 的乘积空间 $A×B$ 中的对分类为真实链接集 $M$ 和真实非链接集 $U$。使用比率 $R$ 来衡量:
$R = \frac{Pr(\gamma \in \Gamma|M)}{Pr(\gamma \in \Gamma|U)}$
其中 $\gamma$ 是比较空间 $\Gamma$ 中的任意协议模式。决策规则如下:
1. 若 $R > T_{\mu}$,则将该对指定为链接。
2. 若 $T_{\lambda} \leq R \leq T_{\mu}$,则将该对指定为可能的链接,并保留以供人工审核。
3. 若 $R < T_{\lambda}$,则将该对指定为非链接。
在实际应用中,$R$ 的分子和分母并不总是容易估计,通常使用期望最大化(EM)算法来估计相关概率。对于定量数据的部分协议概率计算,
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



