《横向联邦学习中 PCA差分隐私数据发布算法》论文算法原理笔记

原创

已于 2023-06-11 11:49:11 修改 · 1.4k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#差分隐私 #横向联邦PCA #联邦学习

于 2023-06-11 02:27:12 首次发布

该算法提出了一种横向联邦PCA算法，结合差分隐私保护，用于在保护本地数据隐私的同时进行数据降维和发布。通过引入随机种子协商和本地噪声均分策略，减少通信成本和噪声添加量，达到与中心化差分隐私PCA相当的隐私保护水平。实验表明，该算法在隐私性和可用性方面优于同类算法。

论文地址：https://www.arocmag.com/article/01-2022-01-041.html

论文摘要

为了让不同组织在保护本地敏感数据和降维后发布数据隐私的前提下，联合使用 PCA进行降维和数据发布，提出横向联邦 PCA差分隐私数据发布算法。引入随机种子联合协商方案，在各站点之间以较少通信代价生成相同随机噪声矩阵。提出本地噪声均分方案，将均分噪声加在本地协方差矩阵上。一方面，保护本地数据隐私;另一方面，减少了噪声添加量，并且达到与中心化差分隐私 PCA算法相同的噪声水平。理论分析表明，该算法满足差分隐私，保证了本地数据和发布数据的隐私性，较同类算法噪声添加量降低。实验从隐私性和可用性角度评估该算法，证明该算法与同类算法相比具有更高的可用性。

本文算法主要涉及到的几个知识点

1、PCA：pca主成分分析，广泛应用于数据降维，是将原来的n维特征映射到k维特征上，而这k维是全新的正交特征，即主成分。如何求得这k个主成分？通过计算数据矩阵的协方差矩阵，得到特征值和特征向量，选择top k的特征值对应的特征向量就是k个主成分，它们的方差最大，而这些特征值对应的特征向量组成的矩阵，便可以将数据矩阵转化到新的空间中，实现数据特征降维。
协方差公式： $Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)$ 上式是两维的情况，多维的话就是一个协方差矩阵：
$Cov(X,Y,Z)=\begin{bmatrix} Cov(X,X) & Cov(X,Y) & Cov(X,Z) \\ Cov(Y,X) & Cov(Y,Y) & Cov(Y,Z) \\ Cov(Z,X) & Cov(Z,Y) & Cov(Z,Z) \end{bmatrix}$ 还有一个概念叫散度矩阵，是衡量数据的分散程度： $S=(n-1)\times Cov(X, Y)$ 这两者求出的特征向量是一致的。因此，整个PCA的求解过程可以如下：

求解整个样本的均值， $\mu=\frac{1}{n}\sum_{i=1}^nX_i$ ，这里 $\mu$ 也是一个m维（即m个特征）的向量。
求协方差cov， $cov=\frac{1}{n-1}(X-\mu)^T(X-\mu)$
根据协方差求特征值 $\Lambda=[\lambda_1,\lambda_2,...,\lambda_m]_{m\times 1}$ 和特征向量 $\Alpha=[\alpha_1,\alpha_2,...,\alpha_m]_{m\times m}$ .
最后利用特征向量进行降维： $Y=[X_{n\times m}\Lambda_{m\times k}]_{n\times k}$ ，其中 $\Lambda_{m\times k}$ 是按照特征值倒排的k个特征向量。

2、差分隐私：( $\epsilon,\delta$ )-差分隐私的定义，假设数据集 $X$ 和 $X^{'}$ 是“邻居数据集”，给定一个算法 $f，O\subseteq range(f)$ ，如果 $Pr[f(x)\in O] \le e^{\epsilon}Pr[f(x') \in O]+\delta$