带错误的匿名个体匹配服务系统
1. 引言
数据隐私对服务系统的健康发展至关重要。提供服务的公司和政府在共享数据时往往有很大顾虑,因此数据在共享前需进行预处理,如匿名化。但匿名后,不同来源的数据难以匹配,也就无法共同使用。
数据匹配是将不同所有者的两个或更多数据库基于个体身份进行匹配,组合后的数据集能包含更丰富信息,从而为客户提供更精准服务。然而,由于隐私问题,数据库所有者在共享数据时至少要对个体标识进行加密或移除。
隐私保护数据匹配一直是活跃的研究领域,有多种数据匹配方法,基于分块和索引。数据库所有者之间交换数据的协议有两种基本类型:
- 两方协议:不依赖第三方,通过数据库所有者双方商定的加密或编码方法移除或加密敏感个人信息。
- 三方协议:需要一个受数据库所有者信任的第三方来进行数据匹配。
数据匹配的流程如下:
1. 数据预处理 :准备和清理数据。
2. 索引 :过滤掉不太可能的匹配,降低匹配复杂度。
3. 比较 :比较匹配数据库的记录,并为每对记录分配相似度得分。
4. 分类 :根据相似度得分匹配记录。
5. 人工审核 :若匹配方法将记录分类为可能匹配,需要人工审核来做决策。
6. 评估 :评估匹配质量。
本文聚焦于分析错误对匹配质量的影响,这些错误可能在相似度得分计算过程中出现,也可能是数据录入错误导致。为排除其他因素影响,不进行分
超级会员免费看
订阅专栏 解锁全文
1931

被折叠的 条评论
为什么被折叠?



