序列模式与模式发现综述
在分子生物学和计算机科学领域,生物序列中的模式发现是极具挑战性的问题。该问题可表述为:给定一组输入序列,找出频繁或意外出现的未知模式,期望这些模式能揭示输入数据中隐藏的规律(功能单元)。
1. 输入序列与简单计数统计
- 基本概念
- 设Σ是一组不同元素{e1, e2, …, e|Σ|},称为字母表,|Σ|为其大小。序列S是Σ上元素的有序列表s1s2…sn。一般输入数据可能是多个序列S1, S2, …, Sm,长度分别为L1, L2, …, Lm,总体长度为L。例如,DNA序列的字母表Σ = {A, C, G, T},蛋白质序列的字母表包含20种氨基酸。多数模式发现方法原则上可适用于任何有限字母表,但大字母表的实现可能不易,计算时间也会大幅增加。
- 模式的出现次数和支持度
- 模式P在多个序列集中的出现次数记为kP,出现列表LP = {…, (i, j), …},其中有序对(i, j)表示P在序列i的位置j出现。模式P在多个序列中的支持度qP是指P至少出现一次的序列数量。若模式的出现次数不少于指定的最小要求minocc(即kp ⩾ minocc),则称该模式为频繁模式。
- 示例 :设输入序列为S1 = A T C G A T和S2 = T C G A T C。模式A T的出现次数为3,出现列表为{(1, 1); (1, 5); (2, 4)},支持度为2;模式G A T C的出现次数为1,出现列表为{(2, 3)},支持度为1。
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



