KMP本质就是用next数组,对匹配过程做了一个加速。
next数组:对str2,每位字符前面的字符串(不包含这个字符),前缀和后缀的最大匹配数量(不含整体),我们把这个前缀后缀相同的字符串称为border(之后简称next数组表示的前缀字符串为border前缀,next数组表示的后缀为border后缀)。
int next[N+1];
string str1,str2;//str1是大字符串,str2是要求匹配的小字符串。
void fnext(){
//生成next数组
next[0] = -1;
next[1] = 0;
int cnt = 0;//cnt==next[i-1],表示前一个字符的前缀border的下一个字符
while(i<=str1.size()){
if(str[i-1]==str[cnt]){
next[i++] = ++cnt;//相同直接+1
}else{
if(cnt==0){
next[i++] = 0;//cnt不能再往前跳了
}else{
cnt = next[cnt];//往前跳,找前缀border的前缀border,可以用反证法证明。
}
}
}
}
void kmp(){
int i = 0,j = 0;
while(i<str1.size()&&j<str2.size()){
if(str1[i]==str2[j]){
i++;
j++;
}else{
if(j==0){
//特殊情况,str1必须移动
i++;
}else{
j = next[j];
}
}
}
}
对代码进行简单描述就是:
1.kmp过程:匹配成功就继续;不成功则str1不动,str2往前跳(如果str2没法在往前跳就让str1移动,因为此时str1一个字符都没匹配上)。
2.求next数组:思想是充分利用前一个字符的next值。过程见代码
kmp加速原理:
(在字符不匹配时,设str1从i到i+j字符,str2从0到j字符。str1[i+j]!=str2[j],但之前字符串都相同)
1.str1没必要从头再来重新匹配,而是从border后缀的第一个字符开始,即str1从(i+j-next[j])开始。(前面一定配不出来,可以用反证法证明)
2.由于border前缀==border后缀,因此str1和str2都再跳border长度的字符,即str1从(i+j-next[j]+next[j]),也就是(i+j)开始,因此str1其实没有动;str2从(next[j])开始。