GSP算法(Generalized Sequential Pattern mining algorithm)
https://wenku.baidu.com/view/19ee9abd960590c69ec376c6.html
http://www.doc88.com/p-999957186220.html
Mining Sequential Patterns: Generalizations and Performance Improvements(参考文献)
一、算法基本思想
给定一个事务数据库,GSP算法需要对事务数据库进行多遍扫描,GSP算法挖掘序列模式的基本架构如下:
第一遍扫描确定该数据库中每一项的支持度,即确定该事务数据库中包含每一项的数据序列的数目。在第一遍扫描结束后,该算法知道哪些项是频繁的,即产生了频繁1项集,而每个频繁1项集即形成了频繁1序列。由频繁k序列集合Lk可产生候选(k+1)序列集合Ck+1,候选(k+1)序列集合中的每条候选序列均包含相同个数的项,且其项的个数均比其对应的种子频繁序列集合Lk中项的个数大1。在产生每一条候选(k+1)序列的同时对其计数,当所有的候选(k+1)序列均已产生后,算法根据每条候选(k+1)序列的计数确定哪些候选(k+1)序列形成频繁(k+1)序列,并作为下一步的种子集合。当由某个种子集合Lk产生的候选序列集合为空时,算法结束。
GS