13、序列模式挖掘:区分序列模式与ConSGapMiner算法

序列模式挖掘:区分序列模式与ConSGapMiner算法

1. 区分序列模式概述

在序列数据挖掘中,区分序列模式是一个重要的研究方向。有时候,我们会从一个通用的序列集合中挖掘特定的模式。当仅给定目标数据集时,可将“背景数据集”作为对立数据集。

文献中的一些研究关注特定位置周围的罕见事件模式,这类模式可归类为位点特征区分序列模式。区分模式类型的例子包括蛋白质结构域基序、转录结合位点基序、转录结合位点隐马尔可夫模型(HMM)、转录结合位点轮廓等,这些模式类型适用于具有给定位置的一个或两个数据集,相关挖掘在之前已有涉及。而类区分序列模式的例子有带间隙的区分序列模式。罕见事件模式的应用包括欺诈检测和警报等。

2. 类特征区分序列模式的定义与术语
  • 子序列出现 :给定一个序列 $S = s_1…s_n$ 和它的子序列 $S’ = s’ 1…s’_m$,如果 $1 \leq i_1 < … < i_m \leq n$ 且对于每个 $1 \leq k \leq m$ 都有 $s’_k = s {i_k}$,那么位置集合 ${i_1, i_2, …, i_m}$ 被称为 $S’$ 在 $S$ 中的一个出现。例如,对于序列 $S = ACACBCB$ 和子序列 $S’ = AB$,$S’$ 在 $S$ 中有 4 个出现:${1, 5}$,${1, 7}$,${3, 5}$ 和 ${3, 7}$。
  • 间隙约束 :最大间隙约束由一个正整数 $g$ 指定。对于序列 $S = s_1s_2…s_n$ 和子序列 $S’$ 在 $S$ 中的一个
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值