生物信息学中的字符串挖掘
1. 后缀树与k - 元组计算
后缀树可用于计算k - 元组,但除非k值很大,否则用后缀树处理这个简单任务有些大材小用。后续会介绍如何用后缀树计算可变长度的局部匹配。
2. 最大精确匹配(Maximal Exact Matches)
2.1 定义
若一个由三元组 (l, p1, p2) 定义的精确匹配满足 S[p1 - 1] ≠ S[p2 - 1] 且 S[p1 + l] ≠ S[p2 + l] ,则该匹配为最大精确匹配。计算两个字符串 S1 和 S2 之间的最大精确匹配,可归结为计算字符串 S = S1#S2 的最大重复对,其中 # 是一个不在 S1 和 S2 中出现的唯一分隔符。
2.2 计算方法
可使用计算最大重复对的算法来计算最大精确匹配,但需做如下修改:
- 每个位置集进一步划分为两个不相交且可能为空的集合:一个包含属于 S1 的后缀的所有位置(这些位置小于 |S1| ),另一个包含属于 S2 的后缀的所有位置(这些位置大于 |S1| )。
- 具体来说,构建集合 Pv(S1, a) ,包含 Pv 中所有对应 <
超级会员免费看
订阅专栏 解锁全文
1126

被折叠的 条评论
为什么被折叠?



