60、从Trie数据结构中发现项目支持度的可扩展技术

从Trie数据结构中发现项目支持度的可扩展技术

1. 引言

自Agrawal等人提出Apriori算法以来,频繁模式挖掘受到了广泛关注和研究。频繁模式挖掘旨在从数据库中寻找有趣的模式,如关联规则、相关性、因果关系、序列和聚类等。目前,已有数百篇研究论文致力于开发和改进相关技术及数据结构。频繁模式挖掘的主要问题是如何高效地管理计算机内存中的大量数据,而将数据存储在Trie数据结构中是一个显著的解决方案。

频繁模式树(FP - Tree)是其中一种,已成为频繁模式挖掘中的基准Trie数据结构。然而,它存在两个主要缺点:一是当现有数据库更新时,所有满足最小支持度的项目都必须重新计数;二是由于最新的项目支持度,当前的FP - Tree可能不再有效,必须重新构建。为了提高整体计算时间,我们提出了一种可扩展的技术——快速确定项目支持度技术(F - DIST),以及一种增强的Trie——无序支持Trie项目集(DOSTrieIT)。

本文的主要贡献有三点:
1. 提出一种新颖、完整且增量的模式树数据结构DOSTrieIT,可保存整个事务数据库。
2. 在DOSTrieIT中嵌入“无扩展单项”(SIWE)功能,以加速项目支持度的捕获过程。
3. 使用三个基准数据集进行实验,证明F - DIST的可扩展性。

2. 相关工作

自1993年Agrawal等人提出Apriori算法以来,已有数百篇论文致力于提高其效率和可扩展性。频繁项集挖掘算法一般可分为三类:类Apriori算法、基于频繁模式的算法和使用垂直数据格式的算法。

由于Apriori算法存在两个非平凡的成本问题,提出了无需生成候选项目集的基于频繁模式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值