隐私保护数据挖掘推理控制方法综述
1. 引言
在当今数字化时代,数据的保护与合理利用成为了至关重要的问题。统计数据库中的推理控制,也被称为统计披露控制(SDC)或统计披露限制(SDL),旨在保护统计数据,使其能够在不泄露与特定个人或实体相关的私人信息的前提下进行公开发布和挖掘。
SDC技术有着广泛的应用领域:
- 官方统计 :多数国家立法要求国家统计机构在发布从公民或公司收集的数据时,确保统计数据的保密性。例如欧盟的CASC项目和美国都在这方面开展了研究。
- 健康信息 :这是隐私保护最为敏感的领域之一。以美国为例,《健康保险流通与责任法案》(HIPAA)的隐私规则要求严格监管受保护的健康信息在医学研究中的使用。大多数西方国家的情况也类似。
- 电子商务 :电子商务会自动收集大量的消费者数据。这些信息对公司非常有用,公司常希望与子公司或合作伙伴共享,但这种信息传输必须受到严格监管,以避免对个人进行公开画像。欧盟和美国都有相关的法规。
SDC技术通常会对数据进行一定程度的修改,这是一种介于不修改数据(最大效用,但无披露保护)和数据加密(最大保护,但对未授权用户无实用性)之间的中间选项。SDC面临的挑战是在提供足够保护的同时,将信息损失(即数据库用户所追求的准确性损失)降至最低。目前,SDC至少可分为三个明确的子学科:
- 表格数据保护 :这是SDC中最古老且最成熟的部分,因为表格数据一直是国家统计机构的传统输出形式。其目标是发布静态汇总信息(即表格),确保无法从中推断出与特定个人相关的机密信息
超级会员免费看
订阅专栏 解锁全文
1002

被折叠的 条评论
为什么被折叠?



