本地差分隐私在隐私构建中的应用
在数据隐私保护日益重要的今天,本地差分隐私(LDP)技术为构建隐私保护的机器学习分类器提供了有效的解决方案。本文将详细介绍基于LDP的分类器构建方法、实验分析以及相关结论。
1. 频率估计与信息增益
在使用频率估计的部分,我们通过计算信息增益(IG)来选择分裂属性。IG值基于熵H计算,公式如下:
[H(A_j) = - \sum_{i} P(x_{i,j})\log_2P(x_{i,j})]
选择使H(Aj)最大的特征A∗进行数据划分。为了计算P(xi,j),我们使用算法3连接每个特征值和类别标签。
2. 半可信方的引入
在找到数据划分的最佳属性后,将数据导向子节点会泄露用户的敏感信息。为了解决这个问题,我们引入了半可信方。具体步骤如下:
1. 获取所有用户的扰动数据。
2. 使用这些数据计算IG和最重要的特征。
3. 询问所有用户该特征的值。
4. 用户使用聚合器提供的公钥加密该值,并将扰动数据和加密值一起重新发送。
5. 半可信方无法解码该值,因为它没有私钥。
6. 半可信方对数据进行洗牌,使聚合器不知道哪个用户发送了哪个数据。
7. 聚合器接收洗牌后的数据,使用私钥解密值,并将扰动数据分配给相应的值。
8. 聚合器为每个值再次估计频率并计算IG,直到树达到预定深度。
9. 在叶子节点,聚合器使用频率估计来统计标签并分配多数标签。
3. 基于LDP的决策树分类器
以下是基于LDP的决策树分类器的算法:
超级会员免费看
订阅专栏 解锁全文
1071

被折叠的 条评论
为什么被折叠?



