利用置信度和支持度隐藏关联规则
1. 背景与相关工作
数据挖掘(DM)的安全影响受到关注,对于数据挖掘中敏感知识的推理和发现问题,有几种可能的解决方法:
- 模糊源数据库。
- 扩充源数据库。
- 仅发布原始数据的样本,限制对源数据库的访问。
Clifton采用了最后一种方法,研究了发布数据量与发现模式的重要性之间的相关性,并展示了如何确定样本大小,使数据挖掘工具无法获得可靠结果。同时,Clifton和Marks认为研究挖掘算法对于提高处理敏感数据和知识披露限制策略的效率至关重要,分析挖掘技术是维护安全问题的第一步。
除了上述通用方法,还有针对特定数据挖掘算法的解决方案,如关联规则挖掘和分类规则挖掘。分类挖掘算法可能使用敏感数据对对象进行排序,对于基于决策区域的算法,敏感属性每个值生成的描述空间可以预先确定。Johnsten和Raghavan确定了评估分类推理系统输出的两个主要标准,并用于检查和修改敏感对象的描述。Moskowitz和Chang使用基于熵的框架降低数据库推理中敏感信息的等级。
对于基于关联规则检索的挖掘算法,有研究通过降低规则的重要性来防止敏感知识的披露,即减少某些频繁项集的出现次数(支持度),使其低于用户指定的阈值,从而使关联规则挖掘算法无法发现这些规则。
2. 问题描述
设 $I = {i_1, \cdots, i_n}$ 是一组文字,称为项。$D$ 是一个事务数据库,每个事务 $T$ 是一个项集,且 $T \subseteq I$,每个事务有一个唯一标识符TID。如果 $X \subset T$,则称事务 $T$ 支持项集 $X$。
关联规则是形
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



