前言
近年来,随着 GDPR 通用数据保护条例出台以及一些互联网公司数据隐私泄漏等事件的发生,数据隐私的保护问题在行业应用中备受关注。与数据密切相关的机器学习算法的安全性成为一个巨大挑战。本文将介绍在机器学习领域中数据隐私安全的相关工作,并介绍第四范式在差分隐私算法效果提升上所做的工作。
主要和大家分享数据隐私的3方面:
-
隐私保护的问题与案例
-
基于数据的隐私保护技术:数据匿名化
-
机器学习模型训练中的隐私保护技术:差分隐私
▌机器学习中的隐私保护问题
1. 信息隐私
信息隐私 ( Privacy ):指的是当一个组织内敏感数据被拥有权限的人员所使用于某些技术、过程 ( 如数据分析、训练模型 ) 时,对数据敏感信息进行保护的过程与规则。
数据的隐私 ( Privacy ) 与安全 ( Security ) 并不等价:有的时候很多人提到数据隐私时,会与数据安全混为一谈,但其实两者并不等价。数据安全通常指防止数据被非法访问;而数据隐私则一般指