以前零零散散做了些KMP的题目,一直也没找出时间整理,这一段又开始研究字符串了,就顺便把KMP整理了一下。废话不说了,我们直接入题。
说到KMP,首先应该知道,它是一种字符串查找算法,因为是由一个姓K,一个姓M和一个姓P的人联合发表的,所以就叫KMP算法了。KMP算法是一种线性时间的的字符串匹配算法,能在O(m+n)的时间数量级上完成字符串的模式匹配操作。它对简单的模式匹配(就是暴力==)的改进在于,当在一趟匹配过程中出现当前比较的两个字符不相等时,不需要回溯主串匹配位置指针i,而是利用已遍历模式串部分的性质,将模式串向右“滑行”尽可能多的距离,再进行比较。所以,我们需要引入一个以模式串为对象的数组next,其中用next[ j ]来纪录当匹配失败时模式串可向右滑行的最多距离,并定义next[ j ]如下:
由定义可以看出,next[ j ]表示的是:在模式串的第j个字符前面有next[ j ]个连续的字符在已遍历过的模式串子串的前缀。比如,模式串S="abaabcac"的next数组值如下:
有了next数组,在模式串匹配的过程中如果在j位匹配失败,就不需要回溯主串指针i了,只需将模式串指针j向前回溯至next[ j ]位置,再重新匹配即可。
实现代码如下:
int next[naxn];
void get_next(string s)//获得模式串s的next数组
{
int i=0, j=-1;
next[0]=-1;
while(i<s.length())
{
if(j==-1||s[i]==s[j])
{
i++;
j++;
next[i]=j;
}
else j=next[j];
}
}
bool KMP(string str,string s)//判断模式串s是否存在于主串str中
{
get_next(s);
int i=0;j=0;
bool flag=false;
while(i<str.length())
{
if(j==-1||str[i]==s[j])
i++,j++;
else j=next[j];
if(j==s.length())
{
flag=true;
break;
}
}
return flag;
}
然而我们有时会遇到模式串为s="abab"(next数组值为-1 0 0 1)这样的情况,试想一下,如果我们拿这个模式串去匹配str="abacabab"这个主串的话会出现什么情况呢?在主串指针i和模式串指针j都等于3时会匹配失败(b!=c),然后j就会回溯至next[ j ]位置,这时我们会发现,next[ j ]位置的字符也不能匹配'c',因为s[ j ]=s[ next[j] ]。显然这样做是完全没必要的,那么我们就要考虑避免这样的事情发生,怎样避免呢,如果出现s[ j ]=s[ next[j] ],那么我们再次赋值next[ j ],让next[ j ]=next[ next[j] ]。
优化next数组实现代码如下:
int next[maxn];
void get_next(string s)//获得模式串s的next数组
{
int i=0, j=-1;
next[0]=-1;
while(i<s.length())
{
if(j==-1||s[i]==s[j])
{
i++;
j++;
if(s[i]!=s[j]) next[i]=j;
else next[i]=next[j];
}
else j=next[j];
}
}