字符串匹配之后缀树

高效匹配DNA序列：后缀树的应用

最新推荐文章于 2022-07-25 19:49:12 发布

原创最新推荐文章于 2022-07-25 19:49:12 发布 · 1.9k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

算法的魅力专栏收录该内容

3 篇文章

订阅专栏

引言

试想有这样一个问题，有一个长度为N的字符串A（N值很大），还有一个模式串B，B的长度为M（N/M很大，说明B只是一个小片段），此时需要判断B是否是A的字串。如果我们使用KMP算法的话，那么复杂度为O(N)，对A串进行K次模式匹配的话就是KO(N)，此时为了降低复杂度，我们可以考虑预处理长字符串A，是的，如果我们预先处理好A的后缀树，那么搜索子串的复杂度就降为O(M)，进行K次匹配为KO(M)，和原来相比，效率大大提高。那么预处理字符串A的复杂度为多少呢？使用Ukkonen的算法，它的时间和空间复杂度都为O(N)，这就像是做了一件一劳永逸的事情一样，一次预处理，多次使用。或许你已经猜到了，我描述的问题就是DNA序列的匹配。

后缀树（Suffix Tree）

一个长度为n的字符串S，它的后缀树是一棵满足以下条件的树：

每条边都代表一个非空字符串；
所有的内部结点（根节点除外）都至少有2个子节点（数据压缩）
有n个叶子节点，且从根到叶子的路径表示了一个唯一的后缀（前提是字符串s的最后一位字符时字典中唯一存在的，显而易见S的不同后缀有n个）。

或许看定义不容易理解，那我们来举个栗子。我们从suffix trie开始讲。suffix trie 是一棵列出字符串A所有后缀的树。比如字符串A=abaaba$

其实suffix trie和suffix tree仅仅差一步之遥。从图中我们可以看到每一条边仅表示一个字符，这样列出所有后缀需要的节点数为(1+2+...+n)，空间复杂度为O(N2)。这样对于长字符串（比如基因序列），我们就不可忍了。仔细观察后缀字典树的结构，我们会发现很多路径都没有分支了，既然没有分支，那么我们就可以把它们集合在一起（数据压缩），这样每条路径表示的就不是一个字符了，而是一个字符序列，可以用字符串中的索引值表示。

参考文献

http://allisons.org/ll/AlgDS/Tree/Suffix/

#翻译# 介绍后缀树(suffix tree)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。