差分隐私技术在火山引擎的应用实践

原创

于 2022-04-06 12:00:00 发布 · 6.6k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数据库 #大数据 #java #数据分析 #编程语言

本文详细介绍了火山引擎安全研究团队如何利用差分隐私技术（DPSQL和LDPDC）解决统计查询和用户数据采集中的隐私泄露问题，通过DPSQL的中心化和LDPDC的本地化策略，确保用户隐私的同时保持数据可用性。DPSQL针对SQL查询提供保护，LDPDC则关注端上数据采集的隐私保护，两服务已在多个行业场景中落地并获得认可。

动手点关注干货不迷路 👆

一、背景

1.1 隐私泄漏场景

随着用户自身隐私保护意识的提升和《数据安全法》、《个人信息保护法》等国家法律法规的陆续施行，如何在收集、使用用户数据的过程中保障用户的隐私安全、满足监管要求，成为了挑战性的问题。在互联网厂商的日常业务中，常见的用户隐私泄露场景有：

（1）数据统计查询： 对用户数据进行统计查询的结果直接向客户返回（如客群洞察等业务），存在通过差分攻击从统计结果中获取个体信息的可能性。

例如，某互联网公司为外部客户提供客群画像服务，客户分别查询群体 A 和群体 B（群体 B 与群体 A 相比，仅多出一名用户甲）的居住地分布，如果第二次查询结果中居住在南京鼓楼的人数比第一次报告中多 1，那么可以推断出甲的居住地在南京鼓楼，泄露了甲的隐私信息。

（2）用户数据采集： 手机 APP、移动终端通常会采集多种用户信息（如地理位置，健康状态等）以提升服务质量和用户体验。然而，直接采集可能会导致用户隐私的泄露，同时也受到法律法规的严格限制。

例如，用户甲在某专科医院看病时打开了位置定位，互联网厂商通过收集用户甲的地理位置，可能会推断出用户甲患有某种疾病，从而造成用户甲的隐私泄露。

因此，对于广大互联网厂商来说，研发高质量的隐私保护服务，以解决统计查询、数据采集等场景中的用户隐私泄露问题，同时保证数据的可用性，从而满足监管要求，为业务赋能，成为了重要的工作。

1.2 去标识化与差分隐私

传统的隐私保护手段往往通过解耦、泛化等方法去除用户记录的标识符信息（如姓名、身份证号、设备 ID 等），或通过匿名化技术（如 K-匿名、L-多样性等）对用户记录的准标识符（如街道、邮编等）进行泛化、压缩，使得攻击者无法直接或间接地把处理过的数据与用户准确地重新关联。然而，传统方法的安全性与攻击者所掌握的背景知识密切相关，并且难以对隐私保护水平进行定量分析。例如上文中的查询场景，由于攻击者有背景知识存在（知道用户甲是否在查询范围中），传统的匿名化方法无法起到预期的作用。

为解决这些问题，差分隐私（Differential Priv

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。