21、数据隐私保护：概念、指标与技术

study

于 2025-06-29 10:26:14 发布

阅读量37

点赞数

CC 4.0 BY-SA版权

分类专栏：数字时代的隐私与身份管理文章标签：数据隐私保护信息论 k-匿名性

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/study/article/details/149893298

数字时代的隐私与身份管理专栏收录该内容

57 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据隐私保护：概念、指标与技术

1. 数据隐私风险度量的信息论方法

1.1 基本概念

在数据隐私保护领域，现有的隐私度量指标，如 k - 匿名性、ℓ - 多样性和 t - 接近性，为数据集中的每个条目定义了最低要求。然而，由于互信息是一个平均量，使用互信息来表示平均披露风险的框架无法完全表达单个条目的这些条件。隐私是一个个体概念，应该为每个个体单独衡量。为了克服这一局限性，我们可以考虑单符号信息，即单个记录对互信息的贡献，并相应地定义披露风险度量。

从披露的角度来看，数据集中的属性可以分为以下几类：
- 标识符 ：能唯一识别受访者的属性，例如社会安全号码（SSN）。
- 准标识符（QIs） ：这些属性组合起来可以与外部信息关联，从而重新识别部分或全部受访者，或者减少对他们身份的不确定性，如出生日期（DoB）、邮政编码（ZIP）和性别。
- 敏感属性 ：包含受访者敏感信息的属性，如疾病、工资和政党。

存在两种类型的披露：身份披露和属性披露。在对原始数据进行匿名化时，我们希望防止这两种类型的披露。

1.2 传统隐私度量指标

k - 匿名性 ：要求在匿名化数据集中，每个准标识符属性的组合（QI 组）至少由 k 条记录共享。较大的 k 值表示匿名化数据集的身份披露风险较低，但它不一定能防止属性披露。
ℓ - 多样性 ：该条件要求对于每个准标识符属性的组合，每个敏感属性

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。