MINI算法:挖掘信息丰富且无冗余的项集
在数据挖掘领域,频繁项集挖掘是一个重要的研究主题。它有助于数据挖掘从业者在大型事务数据库中搜索强关联的项(和事务)。然而,频繁项集的数量通常非常庞大,对于人类用户来说难以管理。因此,近年来的研究致力于定义频繁项集的紧凑表示,例如闭频繁项集或最大频繁项集。但这些方法往往在充分减少输出大小方面仍存在不足,并且会输出许多冗余项集。本文提出了一种全新的方法——MINI算法,以解决这些问题。
1. 引言
频繁项集(或模式)挖掘自1993年提出以来,已经有数百种可扩展的方法被提出用于解决挖掘频繁项集的问题。但支持阈值设置不当会带来问题:过高的支持阈值可能只生成常识性模式甚至无模式;而挖掘低支持度的项集或处理高度相关的数据,则可能产生大量难以检查的结果。
为了解决这个问题,人们提出了多种方法来压缩(或总结)频繁项集,例如闭项集、非可推导项集、闭非可推导项集等,以找到整个模式集合的简洁表示。不过,这些项集的数量仍然可能很大,因此需要更复杂的技术来帮助用户更好地理解数据。
本文开发了一种新的基于概率和客观的有趣性度量方法,并提出了MINI算法,该算法能够发现数据中有趣且无冗余的见解。其新颖之处在于,有趣性度量的计算和冗余减少都是通过同时考虑项的领域和事务的领域来实现的。而且,MINI算法不需要用户手动选择任何参数,只需一个用于管理内存消耗而不影响结果质量的值。
2. 问题陈述
- 事务数据库定义 :事务数据库$T = {t_i}_{i=1}^n$由一组具有唯一标识符的$n$个事务组成。设$I$是一组项${i_1, i_2, …, i_m}$。事务
超级会员免费看
订阅专栏 解锁全文
1507

被折叠的 条评论
为什么被折叠?



