序列挖掘与B2B会议调度优化问题研究
序列挖掘相关内容
序列挖掘是数据挖掘领域的重要研究方向,其思想源于早期Agrawal等人的工作。序列挖掘主要有两种类型,一是挖掘频繁项集序列,即数据库中集合序列所包含的集合序列;二是挖掘单个符号序列,这两种问题紧密相关且可相互转换。
算法性能比较
在不同算法的性能方面,有如下发现:
- 全局模型与其他方法对比 :全局模型与常规DFA表现相似,但速度更快。在JMLR和FIFA等包含众多符号的数据集中,不使用投影频率是一个严重的缺陷,全局 - p.f.的表现明显优于全局模型。
- 专业算法对比 :在专业算法中,cSpade的性能优于PrefixSpan,它是最先进的算法,在所有实验中(不考虑最高频率阈值)速度最快。global - p.f.受PrefixSpan启发,二者表现相似。不过,对于密集的iPRG数据集,PrefixSpan表现优于global - p.f.;而对于大型稀疏的FIFA数据集,情况则相反,这可能是由于CP求解器和PrefixSpan软件的实现选择不同。
| 数据集 | 适用算法 | 原因 |
|---|---|---|
| JMLR、FIFA | global - p.f. | 不使用投影频率有严重缺陷,该算法表现更好 |
| iPRG |
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



