Z-Algorithm详解
0.前言
给你一个文本串ttt和一个模式串ppp,让你寻找ppp在ttt中出现的所以位置。
例如,t="abacababac"t="abacababac"t="abacababac",p="aba"p="aba"p="aba",那么ppp在ttt中出现了333次,起始位置在ttt中的下标分别是111,555,777。
很显然可以想到O(∣t∣∗∣p∣)O(|t|*|p|)O(∣t∣∗∣p∣)的暴力算法,即以每一个位置为起始位置,暴力匹配每一个字符。但是如果ttt和ppp的长度都是10510^5105级别的就会超时,我们需要更高效的方法。在中国有一个KMPKMPKMP算法比较流行,但是我个人比较喜欢Z−algorithmZ-algorithmZ−algorithm。这里我给大家讲一下这个。
1.一些函数的定义
我们定义zi(s)z_i(s)zi(s)为对于所有的2≤i≤∣s∣2 \leq i \leq |s|2≤i≤∣s∣,以iii开头的子串和sss的最长公共前缀的长度
如:
s="aba"s="aba"s="aba",那么z3(s)=1z_3(s)=1z3(s)=1(以333为起始位置,能够匹配sss长度为111的前缀"a""a""a",但匹配不了长度为222的前缀"ab""ab""ab")。
s="abcabcab"s="abcabcab"s="abcabcab",那么z4(s)=5z_4(s)=5z4(s)=5
s="abacababaca"s="abacababaca"s="abacababaca",那么z5(s)=3,z7(s)=5z_5(s)=3, z_7(s)=5z5(s)=3,z7(s)=5
2.如果已知ziz_izi的值如何求出答案
我们将ppp粘在sss的前面,中间用一个字符(如下划线)隔开,可以得到一个字符串sss。我们假设我们已经知道了所有zi(s)z_i(s)zi(s)的值,那么怎么求出答案呢。
我们可以扫描sss串中从∣p∣+2|p|+2∣p∣+2一直到∣p∣+∣t∣+1|p|+|t|+1∣p∣+∣t∣+1的位置iii,也就是原来的ttt字符串的位置,然后判断zi(s)z_i(s)zi(s)是否等于ppp字符串的长度。如果等于,那么在以ttt字符串的这个位置就可以匹配ppp字符串。
为什么这个方法是正确的?
首先,根据zi(s)z_i(s)zi(s)的定义,它表示以iii开头的子串和sss的最长公共前缀的长度。我们知道,sss是由ppp粘在ttt的前面得到的,因此sss的前缀实际上就是ppp字符串,而又因为我们ppp和