关联规则隐藏方法:保护隐私的有效途径
1. 引言
隐私保护数据挖掘是一个新兴的研究领域,旨在探讨数据挖掘方法对个人和组织隐私的影响。该领域主要分为数据隐藏和知识隐藏两个方向。数据隐藏侧重于在数据披露前去除其中的机密或隐私信息,而知识隐藏则关注对数据中机密知识的清理。
关联规则隐藏是知识隐藏领域的一个重要分支,它的目的是修改原始数据库,使某些敏感关联规则消失,同时不严重影响数据和非敏感规则。下面通过一个实际场景来说明关联规则隐藏的必要性。假设大型超市连锁店BigMart的采购总监与Dedtrees纸业公司谈判,对方以低价提供产品,但要求访问BigMart的客户购买数据库。Dedtrees公司通过关联规则挖掘工具发现,购买脱脂牛奶的人也会购买绿纸。于是,Dedtrees公司开展了优惠券营销活动,这严重影响了绿纸的销售,导致绿纸价格上涨。在后续谈判中,Dedtrees公司因竞争减少而不愿提供低价,最终BigMart的业务受到影响。这个场景表明,BigMart在向Dedtrees公司提供数据库之前,应该清理其中的竞争信息和重要商业机密,以防止对方垄断纸业市场。
2. 术语和预备知识
2.1 关联规则挖掘
关联规则挖掘是在事务数据库中发现频繁共现的项目集(即项集),并生成适用于数据的关联规则的过程。每个关联规则都表示为A ⇒ B的形式,其中A和B是事务数据库中的频繁项集,且A ∩ B = ∅。项集A ∪ B被称为生成项集,它由规则箭头左侧的左部(LHS,即A)和右侧的右部(RHS,即B)两部分组成。支持度和置信度是关联规则挖掘中用于驱动规则生成的两个重要指标,只有满足一定支持度和置信度阈值的规则才会被认为是有意义的。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



