数据披露风险评估与保护方法解析
在数据处理和共享过程中,如何保护数据的安全性和隐私性,同时保证数据的可用性,是一个至关重要的问题。本文将详细介绍两种数据披露风险评估方法,以及几种数据扰动保护方法。
DIS方法在记录级别的扩展
DIS(一种衡量统计披露风险的新方法)不仅可以在整个文件级别工作,还能扩展到更低的级别。通过将文件根据某个关键变量的值拆分为子文件,就可以为每个记录获得DIS概率估计。
例如,表2展示了不同婚姻状况下,关键变量(年龄、性别和婚姻状况)的匹配概率:
| 婚姻状况 | Pr(cm \ um) |
| — | — |
| 单身 | 0.023 |
| 已婚 | 0.019 |
| 再婚 | 0.033 |
| 离婚 | 0.036 |
| 丧偶 | 0.027 |
如果将这种方法扩展到关键变量中的所有变量,对于每个记录,就可以根据其在关键变量上的值所属的子组,估计出一组风险概率。
对于如何整合这些值以提供记录的风险度量,有两种明显的可能性:均值和最大值。使用均值的主要理由是,平均记录级别的风险度量将与文件级别的度量相同。最大值可能是识别风险记录以及这些记录中导致风险的变量的更有用方法。在后续的数值研究中,使用均值来演示该方法。
数值演示
为了演示上述方法,进行了以下研究:
1. 数据选择 :使用英国某地区的人口数据,该地区人口为450,000。选择的关键变量包括年龄(94类别)、性别(2)、婚姻状况(5)、种族(10)、主要经济状况(11)和出生国家(42)。
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



