差分隐私相关论文集合

放一个论文合集

1、基于梯度的联邦学习方法,往往通过在每次迭代中随机地扰动中间输出来应用差分隐私(也就
是说在联邦学习的过程不会暴露是否使用某个特定的样本信息)

① DWORK C, ROTH A. The algorithmic foundations of differential privacy[J]. Foundations & Trends® in Databases, 2014, 9(3-4): 211-407.
② BASSILY R, SMITH A, THAKURTA A. Private empirical risk minimization: Efficient algorithms and tight error bounds[C]//2014 IEEE 55th Annual Symposium on Foundations of Computer Science. Piscataway: IEEE Press, 2014: 464-473.
③ PAPERNOT N, SONG S, MIRONOV I, et al. Scalable private learning with pate[J]. arXiv preprint, 2018, arXiv:1802.08908.

2、接1,现在实行的扰动方式特别多。对梯度数据添加了高斯噪声,采用了拉普拉斯噪声

① WU X, LI F G, Kumar A, et al. Bolt-on differential privacy for scalable stochastic gradient descent- based analytics[C]//The 2017 ACM International Conference on Management of Data. New York: ACM Press, 2017: 1307-1322.
② LUCA M, GEORGE D, EMILIANO DE C. Efficient private statistics with succinct sketches[J]. arXiv preprint, 2015, arXiv: 1508.06110.

3、Choudhury O等人成功将差分隐私部署在联邦学习框架内用来分析与健康相关的数据,但是在试验中证明,差分隐私可能会带来较大的函数损失值

CHOUDHURY O, GKOULALAS-DIVANIS A, SALONIDIS T, et al. Differential privacy-enabled federated learning for sensitive health data[J]. arXiv preprint, 2019, a rXiv: 1910.02578.

4、Geyer R C等人证明了 差分隐私对于保障数据持有方的数据隐私的有效性,同时认为大量的数据持有方会使带有差分隐私的联 邦学习表现更加稳定,准确率更高。

GEYER R C, KLEIN T, NABI M. Differentially private federated learning: a client level perspective[J]. arXiv preprint, 2017, arXiv:1712.07557.

5、Pettai M等人将安全多方计算与差分隐私技术相结合,用来保护来自不同 数据持有方的数据

PETTAI M, PEETER L. Combining differential privacy and secure multiparty computation[C]//The 31st Annual Computer Security Applications Conference. New York: ACM Press, 2015.

6、Jeong E 等人也设计了一种结合了安全多方计算与差分隐私技术的联邦学 习隐私保护系统,这种系统结合降噪差分隐私与加性同态加密,有效地保障了联邦学习系统的隐私性。

JEONG E, OH S, KIM H, et al. Communication-efficient on-device machine learning: federated distillation and augmentation under non-iid private data[J]. arXiv preprint, 2018, arXiv: 1811.11479.

7、Xu R H 等人提出了一种新的加密方法 HybridAlpha,将差分隐私技术和基于功能加密的安全多方计算结合,被证明拥有很好的通信效率。

XU R H, BARACALDO N, ZHOU Y, et al. HybridAlpha: an efficient approach for privacy-preserving federated learning[C]//The 12th ACM Workshop on Artificial Intelligence and Security. New York: ACM Press, 2019.

8、

<think>嗯,用户问的是如何通过增加梯度噪声来实现差分隐私,特别是在机器学习中的隐私保护。首先,我需要回忆一下差分隐私的基本概念。差分隐私通过添加噪声来保护数据,使得单个数据的变化不会显著影响输出结果。用户提到的梯度噪声,应该是在训练过程中给梯度添加噪声,防止模型泄露训练数据的信息。 接下来,我得看看相关的引用内容。引用[1]提到隐私预算ϵ控制隐私损失,梯度下降算法中需要合理分配ϵ到每次迭代,并添加适当噪声。这说明在每次参数更新时添加噪声是关键。引用[3]讨论了差分隐私GAN,使用梯度脱敏方法,可能涉及到梯度裁剪和噪声添加的步骤。 那具体步骤应该是怎样的呢?首先,梯度裁剪应该很重要,因为梯度的大小会影响噪声的添加量。比如,先确定梯度的敏感度,也就是最大可能的梯度变化量,这样噪声的规模可以根据这个敏感度和隐私预算来计算。然后,根据差分隐私的机制(比如拉普拉斯或高斯机制)生成噪声,添加到梯度上。 另外,隐私预算的分配也是问题。每次迭代都会消耗一定的隐私预算,总的预算不能超过ϵ。这可能涉及组合定理,比如高级组合定理,来跟踪总隐私损失。引用[1]和[2]都提到隐私预算的管理,需要合理分配,避免总损失超过限制。 用户可能还关心具体的实现方法,比如代码示例。这时候可能需要用Python展示一个简单的差分隐私随机梯度下降。代码中需要包括梯度裁剪、计算噪声标准差、添加噪声等步骤。引用[3]提到生成模型结合差分隐私,但用户的问题更偏向于一般的梯度噪声添加,所以应该聚焦在普通的训练过程。 此外,用户可能想知道为什么这样做能保护隐私。需要解释敏感度控制的作用,以及噪声如何掩盖个体数据的影响。可能还需要提到差分隐私的数学定义,比如(ϵ, δ)-DP,特别是高斯机制通常用于(ϵ, δ)-DP,而拉普拉斯机制用于ϵ-DP。 最后,生成相关问题需要考虑用户可能的后续疑问,比如如何选择噪声类型,隐私预算分配策略,或实际应用中的权衡问题。引用[2]提到添加噪声会降低模型性能,因此可能需要解释如何在隐私和实用性之间取得平衡。</think>### 差分隐私中通过梯度噪声实现隐私保护的技术原理 在机器学习(尤其是分布式或联邦学习场景)中,**通过向梯度添加噪声实现差分隐私**的核心思想是:在模型训练过程中,通过噪声扰动梯度信息,使得攻击者无法通过反向工程推断出训练数据的敏感信息。以下是具体实现方法和技术原理: --- #### 1. **梯度敏感度分析与噪声规模计算** 差分隐私要求噪声规模与查询操作的**敏感度**(即相邻数据集的最大影响)成正比。对于梯度来说: - **敏感度定义**:设相邻数据集 $D$ 和 $D'$ 仅相差一个样本,梯度敏感度 $S$ 为: $$S = \max_{D,D'} \| \nabla L(D) - \nabla L(D') \|_2$$ - **噪声添加规则**:根据差分隐私的拉普拉斯机制或高斯机制,噪声标准差与敏感度 $S$ 和隐私预算 $\epsilon$ 相关。例如,高斯机制要求噪声标准差为: $$\sigma = \frac{S \sqrt{2 \ln(1.25/\delta)}}{\epsilon}$$ 其中 $\delta$ 是松弛项,满足 $(\epsilon, \delta)$-差分隐私[^1]。 --- #### 2. **梯度裁剪(Clipping)** 由于梯度可能因数据样本不同而差异较大,需通过**梯度裁剪**限制敏感度: - **操作步骤**: 1. 设置裁剪阈值 $C$; 2. 对每个样本的梯度 $\nabla L_i$,计算 $\nabla L_i \cdot \min\left(1, \frac{C}{\|\nabla L_i\|_2}\right)$; 3. 裁剪后梯度范数被限制为 $C$,敏感度 $S=C$。 - **作用**:确保梯度敏感度可控,避免噪声规模过大或过小[^3]。 --- #### 3. **噪声添加实现方法** 以**差分隐私随机梯度下降(DP-SGD)**为例: ```python import torch import numpy as np def dp_sgd_update(model, data, epsilon, delta, clip_threshold): # 计算原始梯度 gradients = [param.grad for param in model.parameters()] # 梯度裁剪 total_norm = torch.norm(torch.stack([torch.norm(g) for g in gradients])) clip_factor = clip_threshold / total_norm clipped_gradients = [g * clip_factor if total_norm > clip_threshold else g for g in gradients] # 计算噪声标准差 sensitivity = clip_threshold / len(data) # 单样本敏感度为 clip_threshold sigma = sensitivity * np.sqrt(2 * np.log(1.25/delta)) / epsilon # 添加高斯噪声 noisy_gradients = [g + torch.normal(0, sigma, size=g.shape) for g in clipped_gradients] # 更新参数 for param, g in zip(model.parameters(), noisy_gradients): param.data -= learning_rate * g ``` --- #### 4. **隐私预算分配与跟踪** 多次迭代中需跟踪总隐私消耗: - **组合定理**:使用**高级组合定理**(Advanced Composition Theorem)或**矩会计法**(Moment Accountant)累计隐私损失; - **分配策略**:将总隐私预算 $\epsilon_{\text{total}}$ 按训练轮数 $T$ 分配为 $\epsilon = \epsilon_{\text{total}} / T$,或动态调整以优化实用性[^1]。 --- #### 5. **隐私-实用性权衡** - **噪声影响**:噪声过大会降低模型收敛速度和精度; - **优化策略**: - 调整裁剪阈值 $C$ 以平衡梯度精度与噪声规模; - 使用**自适应梯度裁剪**(如逐层裁剪)提升效率; - 结合**差分隐私生成对抗网络(DP-GAN)**生成合成数据替代原始数据训练。 ---
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值