一、什么是KMP算法
Knuth-Morris-Pratt 字符串查找算法(常简称为 “KMP算法”)是在一个“主文本字符串” S
内查找一个“词” W
的出现,通过观察发现,在不匹配
发生的时候这个词自身包含足够的信息来确定下一个匹配将在哪里开始,以此避免对以前匹配过的字符重新检查。(在原串中匹配模式串)
二、KMP演示
http://staff.ustc.edu.cn/~ypb/jpkc/flash/Find_KMP.swf
三、KMP原理
KMP是一种最常见的改进算法,它可以在匹配过程中失配的情况下,有效地多往后面跳几个字符,加快匹配速度。
在KMP算法中有个数组,叫做前缀数组,也有的叫next数组,每一个模式串都有一个固定的next数组,它记录着字符串匹配过程中失配情况下可以向前多跳几个字符,当然它描述的也是子串的对称程度,程度越高,值越大,当然之前可能出现再匹配的机会就更大。
对于next数组的理解,参见http://blog.youkuaiyun.com/yearn520/article/details/6729426#t0
void SetPrefix(const char *Pattern, int prefix[])
{
int i;
int len=strlen(Pattern);//模式字符串长度。
prefix[0]=0;
for(i=1; i<len; i++)
{
int k=prefix[i-1];
//不断递归判断是否存在子对称,k=0说明不再有子对称,Pattern[i] != Pattern[k]说明虽然对称,但是对称后面的值和当前的字符值不相等,所以继续递推
while( Pattern[i] != Pattern[k] && k!=0 )//例i等于14时,求prefix[14]的值
k=prefix[k-1]; //继续递归
if( Pattern[i] == Pattern[k])//找到了这个子对称,或者是直接继承了前面的对称性,这两种都在前面的基础上++
prefix[i]=k+1;
else
prefix[i]=0; //如果遍历了所有子对称都无效,说明这个新字符不具有对称性,清0
}
prefix[0]=-1;
}
四、测试小例
#include <iostream>
#include <cstring>
#include <string>
using namespace std;
string sorg;
string spat;
int prefix[10000];
int result[20];
void init()
{
sorg="";
spat="";
memset(prefix,0,sizeof(int)*10000);
//memset(result,0,sizeof(int)*20);
}
void setprefix(string temp,int next[])
{
int len=temp.size();
next[0]=0;
for(int i=1;i<len;i++)
{
int k=next[i-1];
while(temp[k]!=temp[i]&&k!=0)
k=next[k-1];
if(temp[k]==temp[i])
next[i]=k+1;
else
next[i]=0;
}
next[0]=-1;
for(int i=0;i<len;i++)
if(next[i]>=1)
next[i]=next[i]-1;
}
int kmp(string s1,string s2)
{
int number=0;
int i=0;
int j=0;
while(i<(int)s1.size()&&j<(int)s2.size())
{
if(j==-1||s1[i]==s2[j])
{
i++;
j++;
}
else
j=prefix[j];
if(j==s2.size())
{
i=i-j+1;
j=0;
number++;
}
}
return number;
}
int main()
{
int t;
cin>>t;
memset(result,0,sizeof(int)*20);
for(int i=0;i<t;i++)
{
init();
//cout<<"input spat string:"<<endl;
cin>>spat;
//cout<<"input sorg string:"<<endl;
cin>>sorg;
setprefix(spat,prefix);
result[i]=kmp(sorg,spat);
}
for(int j=0;j<t;j++)
cout<<result[j]<<endl;
return 0;
}