序列模式挖掘:区分序列模式与ConSGapMiner算法
1. 区分序列模式概述
在序列数据挖掘中,区分序列模式是一个重要的研究方向。有时候,我们会从一个通用的序列集合中挖掘特定的模式。当仅给定目标数据集时,可将“背景数据集”作为对立数据集。
文献中的一些研究关注特定位置周围的罕见事件模式,这类模式可归类为位点特征区分序列模式。区分模式类型的例子包括蛋白质结构域基序、转录结合位点基序、转录结合位点隐马尔可夫模型(HMM)、转录结合位点轮廓等,这些模式类型适用于具有给定位置的一个或两个数据集,相关挖掘在之前已有涉及。而类区分序列模式的例子有带间隙的区分序列模式。罕见事件模式的应用包括欺诈检测和警报等。
2. 类特征区分序列模式的定义与术语
- 子序列出现 :给定一个序列 $S = s_1…s_n$ 和它的子序列 $S’ = s’ 1…s’_m$,如果 $1 \leq i_1 < … < i_m \leq n$ 且对于每个 $1 \leq k \leq m$ 都有 $s’_k = s {i_k}$,那么位置集合 ${i_1, i_2, …, i_m}$ 被称为 $S’$ 在 $S$ 中的一个出现。例如,对于序列 $S = ACACBCB$ 和子序列 $S’ = AB$,$S’$ 在 $S$ 中有 4 个出现:${1, 5}$,${1, 7}$,${3, 5}$ 和 ${3, 7}$。
- 间隙约束 :最大间隙约束由一个正整数 $g$ 指定。对于序列 $S = s_1s_2…s_n$ 和子序列 $S’$ 在 $S$ 中的一个
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



