序列数据中的偏序挖掘与区分序列模式
1. 从序列中挖掘偏序
1.1 Frecpo算法优势
Frecpo算法在递归深度优先搜索中具有积极且渐进地修剪无用分支的优势。它会积极修剪不频繁的项、边以及那些不可能出现在频繁闭偏序的传递约简中的禁止边,从而使递归深度优先搜索的搜索空间大幅缩小。此外,该算法仅使用当前投影数据库中的频繁项和局部可行边,将当前频繁闭偏序扩展为更强的偏序,这种模式增长方法使搜索更具针对性。
1.2 偏序的应用
1.2.1 生物信息学
在生物实验数据分析中,排序信息往往至关重要。例如,在发现基因表达矩阵中的模式时,一种有前景的方法是寻找保序子矩阵(OPSMs)。在一个n×m的基因表达矩阵中,每个元素$v_{i,j}$表示基因$g_i$在实验$e_j$中的表达水平。如果子矩阵中所有基因的表达水平对实验诱导出相同的(线性或偏序)排序,则该子矩阵是保序的。这种模式可能出现在保序子矩阵中的实验代表疾病进展或细胞过程的不同阶段,且子矩阵中所有基因的表达水平在这些阶段以相同方式变化的情况下。此外,一组基因共享的条件偏序可能表明这些基因形成共表达组,并且它们对一系列环境刺激做出反应。
1.2.2 过程模型挖掘、网络挖掘和市场篮子分析
工作流范式广泛用于指定业务流程的执行方式。通常希望从给定过程的过去无结构执行日志中构建过程模型。在网络挖掘和市场篮子分析中,一个关键任务是识别一组客户,其中所有客户的购买序列对一系列产品诱导出相同的排序。以往研究中,顺序模式常用于此目的,但顺序模式可能无法简洁地捕捉一般排序信息,而偏序可以更好地模拟客户的购买行为。因此,在许多情况下,使用频繁偏序代替顺序模式
超级会员免费看
订阅专栏 解锁全文
9

被折叠的 条评论
为什么被折叠?



