字符串匹配之后缀树

高效匹配DNA序列:后缀树的应用

引言

        试想有这样一个问题,有一个长度为N的字符串A(N值很大),还有一个模式串B,B的长度为M(N/M很大,说明B只是一个小片段),此时需要判断B是否是A的字串。如果我们使用KMP算法的话,那么复杂度为O(N),对A串进行K次模式匹配的话就是KO(N),此时为了降低复杂度,我们可以考虑预处理长字符串A,是的,如果我们预先处理好A的后缀树,那么搜索子串的复杂度就降为O(M),进行K次匹配为KO(M),和原来相比,效率大大提高。那么预处理字符串A的复杂度为多少呢?使用Ukkonen的算法,它的时间和空间复杂度都为O(N),这就像是做了一件一劳永逸的事情一样,一次预处理,多次使用。或许你已经猜到了,我描述的问题就是DNA序列的匹配。

后缀树(Suffix Tree)

一个长度为n的字符串S,它的后缀树是一棵满足以下条件的树:
  1. 每条边都代表一个非空字符串;
  2. 所有的内部结点(根节点除外)都至少有2个子节点(数据压缩
  3. 有n个叶子节点,且从根到叶子的路径表示了一个唯一的后缀(前提是字符串s的最后一位字符时字典中唯一存在的,显而易见S的不同后缀有n个)。
或许看定义不容易理解,那我们来举个栗子。我们从suffix trie开始讲。suffix trie 是一棵列出字符串A所有后缀的树。比如字符串A=abaaba$

其实suffix trie和suffix tree仅仅差一步之遥。从图中我们可以看到每一条边仅表示一个字符,这样列出所有后缀需要的节点数为(1+2+...+n),空间复杂度为O(N2)。这样对于长字符串(比如基因序列),我们就不可忍了。仔细观察后缀字典树的结构,我们会发现很多路径都没有分支了,既然没有分支,那么我们就可以把它们集合在一起(数据压缩),这样每条路径表示的就不是一个字符了,而是一个字符序列,可以用字符串中的索引值表示。


参考文献




### 使用后缀树算法实现最长重复子串的查找 #### 后缀树简介 后缀树是一种特殊的 Trie 树结构,能够高效处理字符串的相关操作。对于给定的一个字符串 S,其后缀树包含了该字符串所有可能的后缀作为路径。通过构建这样的数据结构,在线性时间内即可完成诸如模式匹配、寻找最长重复子串等问题。 #### 构建后缀树 为了找到一个字符串中的最长重复子串,首先需要建立对应的后缀树。具体来说: - 将整个输入字符串视为根节点; - 对于每一个字符位置 i (0 ≤ i < |S|),创建一条从当前节点出发的新边,标记上自第i个字符起始直到字符串结尾的部分; - 如果遇到已经存在的相同前缀,则沿着已有分支继续扩展新的叶子结点;否则新开辟一条独立的支路。 ```python class SuffixTreeNode: def __init__(self, start=None, end=None): self.children = {} self.start = start # 子串起点索引 self.end = end # 子串终点索引 def build_suffix_tree(text): root = SuffixTreeNode() for suffix_start in range(len(text)): current_node = root pos = suffix_start while pos < len(text): char = text[pos] if char not in current_node.children: new_leaf = SuffixTreeNode(start=pos, end=len(text)-1) current_node.children[char] = new_leaf break next_node = current_node.children[char] # Walk down existing path as far as possible edge_length = min(next_node.end - next_node.start + 1, len(text) - pos) match_found = True for offset in range(edge_length): if text[next_node.start+offset] != text[pos+offset]: match_found = False split_point = next_node.start + offset internal_node = SuffixTreeNode( start=next_node.start, end=split_point-1 ) old_child = SuffixTreeNode( start=split_point, end=next_node.end ) internal_node.children[text[split_point]] = old_child current_node.children[char] = internal_node new_leaf = SuffixTreeNode( start=pos+offset, end=len(text)-1 ) internal_node.children[text[pos+offset]] = new_leaf break if match_found: current_node = next_node pos += edge_length else: break return root ``` #### 查找最长重复子串 一旦建立了完整的后缀树之后,就可以遍历这棵树来定位那些具有多个后代叶节点内部节点所代表的子串——这些就是候选的“重复”片段。特别地,当某个内节点下的所有子孙都是来自不同初始位置的不同后缀时,那么这个共同祖先就对应着一段真正的重复序列。最终只需要挑选出其中长度最大的那个即为目标答案[^1]。 ```python from collections import defaultdict def find_longest_repeated_substring(suffix_tree): longest_repeat = "" repeated_nodes = [] def traverse(node, depth, visited_positions): nonlocal longest_repeat is_repeating = False child_visited_positions = set() for _, child in node.children.items(): result = traverse(child, depth+len(text[child.start:child.end+1]), visited_positions.union({node})) if isinstance(result, str): candidate = result if len(candidate) > len(longest_repeat): longest_repeat = candidate elif result: is_repeating |= True child_visited_positions.update(result) if len(child_visited_positions) >= 2 and \ all(p not in visited_positions for p in child_visited_positions): substring = text[node.start : node.start+(depth-len(str(visited_positions)))] if len(substring) > len(longest_repeat): longest_repeat = substring return list(child_visited_positions) return "" if not is_repeating else None traverse(suffix_tree, 0, set()) return longest_repeat ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值