数据隐私保护与空间平滑技术研究
1 语义相关噪声添加算法
语义相关噪声添加算法依据特定启发式方法,对多变量名义数据集进行掩码处理,以保护数据隐私并合理保留数据语义和属性相关性。以下是该算法的详细步骤:
1. 获取分类法 :获取与属性A和B的域相关的分类法s(D(A))和s(D(B))。
2. 值映射 :将每个属性的值映射到s(D(A))和s(D(B))的概念。
3. 构建协方差矩阵 :构建(2 × 2)协方差矩阵RA,B。
4. 生成噪声矩阵 :生成(n × 2)噪声矩阵eA,B * N(0, aRA,B)。
5. 掩码处理 :根据所需的相关噪声大小和启发式方法,对属性A进行掩码处理,同样的过程应用于属性B。
为了提供先验隐私保证,该方法应在基于噪声的隐私模型(如ε - 差分隐私)的背景下应用。通过特殊定制的噪声分布,该模型保证输出对单个输入记录的修改不敏感(最多依赖于ε因子)。
2 实验评估
2.1 实验数据
使用加利福尼亚州全州卫生规划与发展办公室提供的患者出院数据集,每个记录包含两个相关的名义属性:主要诊断和次要诊断。采用SNOMED - CT作为本体,为数据提供语义。
2.2 实验设置
进行了两组实验,分别使用具有高语义距离相关性(0.94)的1350条记录样本和具有弱相关性(0.24)的1049条记录样本。对数据集分别使用相关噪声添加算法和语义
超级会员免费看
订阅专栏 解锁全文
803

被折叠的 条评论
为什么被折叠?



