大规模数据挖掘算法:MiSeRe - Hadoop与PPF - growth
在当今大数据时代,从海量数据中挖掘有价值的信息变得至关重要。本文将介绍两种用于大规模数据挖掘的算法:MiSeRe - Hadoop和并行周期性频繁模式增长(PPF - growth)算法。
MiSeRe - Hadoop:大规模稳健序列分类算法
MiSeRe - Hadoop是一种用于在MapReduce中挖掘序列规则的可扩展算法。它在挖掘大规模序列数据中的序列规则模式方面表现出色。
候选序列生成特点
MiSeRe - Hadoop生成的候选序列中,包含较少项目的序列比包含较多项目的序列更多。这是因为短规则更有可能出现且更受青睐。例如,包含少于8个项目的候选序列占所有生成候选序列的85%。对于纽约时报(NYT)数据集,由于它是文本数据集且有965782个不同的单词,MiSeRe - Hadoop生成的大多数候选序列包含2个项目,理论上可以生成多达(965782)²个不同的2项候选序列。
从图8(b)可以看出,从文本数据中生成序列分类规则并非易事。例如,MiSeRe - Hadoop生成了11673个包含三个单词的候选序列,但最终仅在这些候选序列中找到了157个有趣的规则。
| 数据集 | 生成的候选序列数量(三项) | 最终找到的有趣规则数量 |
|---|---|---|
| NYT | 11673 | 157 |
超级会员免费看
订阅专栏 解锁全文
327

被折叠的 条评论
为什么被折叠?



