隐私保护数据集成:理论、方法与实验
1. 隐私保护研究信息系统
隐私保护研究信息系统是一种具备必要安全协议的信息系统,使研究人员能够访问宇宙 U 中的一个或多个隐私保护信息进行研究。美国人口普查局和疾病控制中心(CDC)的研究数据中心(RDC)就是很好的例子。RDC 是一个信息系统,研究人员可以在受限访问控制下获取微观层面的去标识化数据,用于经批准的研究,并采用了许多安全协议,以提供政府机构要求的最高级别的隐私保护。受限访问是最严格的访问级别,研究人员需要在指定的物理位置使用指定的计算机,并且所有信息的发布都受到全面监控。
2. 隐私保护记录链接模型
2.1 解耦数据访问模型
- 基本定义 :设 U 是一个包含多个具有多个属性的实体的宇宙,D(n) 是一个有 n 行的表,从宇宙 U 中收集 x 个属性的数据,每行代表宇宙 U 中的一个实体,每列代表一个属性。D[i] 表示表 D 中的第 i 行。
- PII 表和去标识化表 :给定表 D(n),其 PII 表用 ID(n) 表示,由能明确识别宇宙 U 中实体的属性组成;SD(n) 表示去标识化表,由 D(n) 中不在 ID(n) 中的列组成,即 D(n) = ID(n) + SD(n)。
- 解耦表 :存在映射函数 recordID(),当且仅当 ID[i] 和 SD[j] 仅包含来自表 D(n) 同一行的值时,recordID(ID[i]) = recordID(SD[j])。解耦表是指 PII 表 ID(n0) 和去标识化表 SD(n),
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



