加密数据上的高效聚类
在数据处理和分析领域,聚类是一种重要的技术,它能够将数据集中的对象分组,使得同一组内的对象具有较高的相似性,而不同组之间的对象具有较大的差异性。然而,在实际应用中,数据的隐私保护是一个不容忽视的问题。特别是当数据所有者需要将数据外包给不可信的服务器进行处理时,如何在保证数据隐私的前提下进行高效的聚类分析成为了一个挑战。
1. 相关工作
近年来,隐私保护聚类在学术界得到了广泛的讨论。不同的研究提出了各种解决方案,但它们都存在一定的局限性:
- 部分同态加密(PHE)与双云交互协议 :一些研究利用部分同态加密和两个非勾结的云服务器,设计了它们之间的交互协议。然而,由于通信成本较高,这些方案不适用于大数据场景。
- 差分隐私 :部分工作应用差分隐私来保护个人的隐私信息。但在聚类算法中引入的噪声会导致聚类结果的准确性显著下降。
- 多方计算(MPC) :多方计算被提出用于实现隐私保护聚类,但这需要数据所有者之间进行交互。
- 基于FHE的相关工作 :一些基于全同态加密(FHE)的方案也存在问题。例如,有的方案会泄露包含私人信息的中间值;有的方案虽然提出了高效且隐私保护的外包k - 均值聚类方案,但在明文计算的服务器仍能从数据中推断出部分私人信息。还有的方案虽然提出了完全隐私保护的聚类方案,但运行时间过长,且其密文比较和除法是近似的,会引入误差。
2. 背景知识
2.1 近似同态加密CKKS
为了实现隐私保护聚类,我们选择了近似同态
超级会员免费看
订阅专栏 解锁全文
887

被折叠的 条评论
为什么被折叠?



