关联规则挖掘中的隐私问题
数据挖掘服务需要准确的输入数据才能使结果有意义,但隐私问题可能会促使用户提供虚假信息。本文将探讨关联规则挖掘中出现的不同隐私方面,重点关注输入数据隐私、输出规则隐私和所有者隐私。
1. 引言
隐私保护数据挖掘旨在研究减轻数据挖掘方法对个人和组织隐私造成损害的副作用。关联规则挖掘(ARM)中的隐私问题可分为以下三类:
- 输入隐私 :与数据本身相关,也称为数据隐藏。目的是防止挖掘者可靠地提取机密或私人信息,解决用户因担心隐私泄露而不愿提供真实信息的问题。
- 输出隐私 :关注数据挖掘方法分析数据后发现的信息或知识,即知识隐藏。旨在消除数据集中敏感模式的披露,避免敏感信息泄露或歧视问题。
- 所有者隐私 :涉及使一组数据所有者能够以分布式方式共同挖掘数据,而不让任何一方可靠地了解其他所有者持有的数据。
2. 输入隐私
数据挖掘技术产生的知识模型的质量取决于输入数据的准确性。用户故意提供虚假信息是数据不准确的一个来源,例如在电子商务服务中,用户担心信息被滥用而不愿提供个人信息。在关联规则挖掘中,我们研究能否在保证挖掘过程不会侵犯用户隐私的同时,鼓励用户提供准确数据,并产生足够准确的挖掘结果。然而,隐私和准确性通常是相互矛盾的,提高一方往往会牺牲另一方。
2.1 问题框架
- 数据库模型 :假设原始(真实)数据库 U 由 N 条记录组成,每条记录有 M 个分类属性。布尔数据是此类的特殊情况,连续值属性可以通
超级会员免费看
订阅专栏 解锁全文
1137

被折叠的 条评论
为什么被折叠?



