隐私约束下的关联规则挖掘:技术与实践
1. 引言
数据挖掘服务需要准确的输入数据才能使结果有意义,但隐私问题可能导致用户提供虚假信息。例如,电商服务提供商要求客户在网页表单上提供个人信息时,客户可能担心信息被滥用而故意提供错误内容。又如,制药公司收集客户疾病信息以研究疾病关联,客户可能担心医疗记录泄露影响未来就业。因此,如何在保证挖掘过程不会侵犯用户隐私的前提下,鼓励用户提供正确信息,并同时产生足够准确的挖掘结果,是一个重要的研究问题。
2. 问题框架
2.1 数据库模型
假设原始(真实)数据库 U 由 N 条记录组成,每条记录有 M 个分类属性。布尔数据是这类数据的特殊情况,连续值属性可通过将属性域划分为固定长度的区间转换为分类属性。属性 j 的域表示为 $S_j^U$,记录在 U 中的域 $S_U$ 为 $S_U = \prod_{j=1}^{M}S_j^U$。将域 $S_U$ 映射到索引集 $I_U = {1, …, |S_U|}$,从而将数据库建模为来自 $I_U$ 的 N 个值的集合。例如,一个包含年龄、性别和教育程度三个分类属性的数据库,其域和索引集的映射关系如下表所示:
| 属性 | 类别值 |
| ---- | ---- |
| 年龄 | 儿童、成人、老年 |
| 性别 | 男、女 |
| 教育程度 | 小学、研究生 |
对于这个模式,$M = 3$,$S_1^U$ = {儿童, 成人, 老年},$S_2^U$ = {男, 女},$S_3^U$ = {小学, 研究生},$S_U = S_1^U \times S_2^U \times S_3^U$,$|S_U| = 12$,索引
超级会员免费看
订阅专栏 解锁全文
1783

被折叠的 条评论
为什么被折叠?



