11、隐私约束下的关联规则挖掘:技术与实践

隐私约束下的关联规则挖掘:技术与实践

1. 引言

数据挖掘服务需要准确的输入数据才能使结果有意义,但隐私问题可能导致用户提供虚假信息。例如,电商服务提供商要求客户在网页表单上提供个人信息时,客户可能担心信息被滥用而故意提供错误内容。又如,制药公司收集客户疾病信息以研究疾病关联,客户可能担心医疗记录泄露影响未来就业。因此,如何在保证挖掘过程不会侵犯用户隐私的前提下,鼓励用户提供正确信息,并同时产生足够准确的挖掘结果,是一个重要的研究问题。

2. 问题框架
2.1 数据库模型

假设原始(真实)数据库 U 由 N 条记录组成,每条记录有 M 个分类属性。布尔数据是这类数据的特殊情况,连续值属性可通过将属性域划分为固定长度的区间转换为分类属性。属性 j 的域表示为 $S_j^U$,记录在 U 中的域 $S_U$ 为 $S_U = \prod_{j=1}^{M}S_j^U$。将域 $S_U$ 映射到索引集 $I_U = {1, …, |S_U|}$,从而将数据库建模为来自 $I_U$ 的 N 个值的集合。例如,一个包含年龄、性别和教育程度三个分类属性的数据库,其域和索引集的映射关系如下表所示:
| 属性 | 类别值 |
| ---- | ---- |
| 年龄 | 儿童、成人、老年 |
| 性别 | 男、女 |
| 教育程度 | 小学、研究生 |
对于这个模式,$M = 3$,$S_1^U$ = {儿童, 成人, 老年},$S_2^U$ = {男, 女},$S_3^U$ = {小学, 研究生},$S_U = S_1^U \times S_2^U \times S_3^U$,$|S_U| = 12$,索引

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值