本地差分隐私在分类算法私密构建中的应用
1. 引言
随着信息技术的飞速发展,用户数据的收集量急剧增加。全球创建的数据量呈指数级增长,2010 年为 15 泽字节,2020 年达到 64 泽字节,预计 2025 年将达到 168 泽字节。为了从海量数据中提取有价值的信息,需要使用数据驱动的决策技术。分类算法在数据分析中是非常有效的工具,可利用以往经验在新情况下做出精确决策,广泛应用于医疗图像分析、自然语言处理、生物识别、垃圾邮件检测和智能电网等领域。
然而,由于隐私问题,数据所有者通常不愿意将原始数据共享给第三方,这使得分类算法难以获得大量数据进行准确训练。目前,保护用户隐私的分类器构建方法主要分为三类:
- 基于加密的方法 :主要在加密输入上寻找模型参数,但在执行运行时间和带宽使用方面缺乏可扩展性。
- 数据匿名化技术 :在数据发布前对其进行扰动,如 k - 匿名性、ℓ - 多样性和 t - 接近性,但这些技术被批评为不能很好地保护用户隐私。
- 差分隐私(DP)和本地差分隐私(LDP) :提供了严格的隐私保证,通过向公开数据中添加系统噪声来保留原始数据的一些统计特性。特别是 LDP,它能在数据发送到第三方之前,在用户自己的设备上保证隐私,因此在隐私数据的分析中越来越受到关注。
在 LDP 环境下,已有一些分类算法得到了训练,但目前缺乏对这些分类器性能的比较。本研究旨在回答以下问题:
- LDP 机制的选择如何影响基于 LDP 的分类器的性能?
- 数据集的哪些属性会影响基于 LDP 的分类器的性能?
- 隐
超级会员免费看
订阅专栏 解锁全文
92

被折叠的 条评论
为什么被折叠?



