KMP算法是在BF算法的进一步优化,BF算法是在主串中查找子串的一种算法
BF算法介绍:BF算法是指在一个主串s中查找子串sub,若查找成功则返回子串首次出现的下标,否则,返回-1。
BF算法实现代码:
#include <stdio.h>
#include <string.h>
int BF(const char *s,const char* sub,int pos)//查找子串:时间复杂度:O(n*m)
{
int i=pos;
int j=0;
int lens=strlen(s);
int lensub=strlen(sub);
while(i<lens && j<lensub)
{
if(s[i]==sub[j])
{
i++;
j++;
}
else
{
i=i-j+1;//i退回到初始比较的下一个字符处
j=0;//j回退到0
}
}
if(j>=lensub)
{
return i-j;
}
else
{
return -1;
}
}
int main()
{
char *s="ababcabcdefabcd";
char *sub="abcd";
printf("%d\n",BF(s,sub,0));
return 0;
}
KMP算法是BF算法的优化,在某些情况下,字符串匹配时,会存在一些不必要的匹配,浪费时间,为了避免那些不必要的匹配动作,KMP算法采取了一些优化,即上述中的i不用回退,并且j也不一定回退到0号下标,具体算法思想如下所示:
在子串匹配过程中,任意位置都有可能匹配失败,用一个数组next,保存子串中每个字符匹配失败后j应回退的位置。即在a失配后,a本身下标为0,用next[0]保存应回退的k值,b下标为1,b失配时,next[1]保存应回退的k值。
求next数组的代码思路:
next[0]=-1;
next[1]=0;
假设next[i]=k ==> P0..Pk-1=Pi-k..Pi-1 (1)
next[i+1]=??
如果Pk=Pi (2)
由(1)(2)==》P0..Pk=Pi-k..Pi ==>next[i+1]=k+1
如何求得next数组的值:某字符对应的next数组中的值为,该字符之前最长的相同前缀和后缀的长度,下面进行两组练习:
KMP算法代码实现:
#include <stdio.h>
#include <string.h>
#include <malloc.h>
#include <assert.h>
void GetNext(int *next,const char *sub)//求解next数组的值
{
int lensub=strlen(sub);//也是next数组的长度
next[0]=-1;
next[1]=0;
int i=2;
int k=0;
while(i<lensub)
{
if((k==-1) || (sub[k]==sub[i-1]))
{
next[i]=k+1;
i++;
k+=1; //这三句相当于next[i++]=++k
}
else
{
k=next[k];//***画图理解
}
}
}
int KMP(const char *s,const char *sub,int pos)
{
int i=pos;
int j=0;
int lens=strlen(s);
int lensub=strlen(sub);
int *next=(int *)malloc(lensub*sizeof(int));
//next数组保存着,某下标下失配时j应该会退的next数组中存的对应下标的值(k值)
assert(next!=NULL);
GetNext(next,sub);
while(i<lens && j<lensub)
{
if((j==-1) || (s[i]==sub[j]))
{
i++;
j++;
}
else
{
j=next[j];
}
}
free(next);
if(j>=lensub)
{
return i-j;
}
else
{
return -1;
}
}
int main()
{
char *s="ababcabcdefabcd";
char *sub="abcd";
printf("%d\n",KMP(s,sub,5));
return 0;
}
此外,还有一种情况:子串若为“aaaaaaaab”时,为避免j不必要的回退,对next数组进一步修正,得到nextval数组:
nextval数组的求法(修正的next数组):nextval[0]=-1,看每个字符对应的next数组中的值与同一下标下模式串的字符相同不,若相同,则该字符对应的nextval的值等于前面相同字符对应的nextval的值;若不同,则nextval的值等于next的值,举例如下:
有的选择题会让我们选出某个模式串的next数组的值与nextval的值,若看到选项中都是以0开头的,我们先以上述方式求出next数组与nextval数组的值,在将其逐个+1就是答案。