数据保护中的掩码后优化与CASC项目解析
在数据保护领域,如何平衡信息损失和披露风险一直是关键问题。本文将介绍掩码后优化方法以及CASC(Computational Aspects of Statistical Confidentiality)项目,探讨它们在数据保护中的应用和效果。
1. 整体评分与数据关联
在数据保护中,我们需要评估掩码后数据集与原始数据集之间的差异。整体评分公式如下:
- 整体评分: Overall score = 0.5 · IL + 0.125 · DLD + 0.125 · PLD + 0.25 · ID
- 简化评分(仅使用DLD记录关联方法): Score = 0.5 · IL + 0.25 · DLD + 0.25 · ID
评分越低,说明方法越好。在计算信息损失(IL)和识别风险(ID)时,需要定义原始数据集X和掩码数据集X′中记录的对应关系。通常,我们使用d维欧几里得距离将每个发布的掩码记录i映射到最近的原始记录c(i)。
2. 掩码后优化
当原始数据集X被掩码为X′后,掩码后优化的目标是将X′修改为X′′,使得X′′尽可能保留X的一阶和二阶矩,同时将IL1保持在规定值附近。
2.1 模型
- 一阶矩:依赖于
∑(i=1 to n) xij / n(j = 1, …, d),其中xij是第i条记录中第j个变量的值。 - 二阶矩:依赖于
∑(i=1 to n) xij² / n(j = 1, …, d)
掩码后优化与CASC项目解析
超级会员免费看
订阅专栏 解锁全文

15万+

被折叠的 条评论
为什么被折叠?



