(一)KMP算法!!!
【KMP算法】:Knuth-Morris-Pratt字符串查找算法,简称“KMP算法”,和上一篇“暴力匹配算法”得应用一样,用于在一个母串中查找一个子串出现的位置。KMP算法由Donald Knuth,James H.Morris,Vaughan Partt三人于1977年发布。故,称为“KMP算法”;
KMP算法由两部分组成,next数组和KMP算法。
例:
s1:BBCABCDABCDABD
s2:ABCDABD
由于KMP算法比较抽象难懂,这里先给出代码:
可以先不理解,先敲出来,然后慢慢理解;
#include<iostream>
#include<string.h>
using namespace std;
int next1[1005]; //定义一个kmp算法中很重要的一个数组,next数组,我这里因为编辑器的问题,定义为next1;
void getnext(char *s2) //计算next数组;
{
int len2 = strlen(s2);
int i = 0, j = -1;
next1[0] = -1;
while (i < len2)
{
if (j == -1 || s2[i] == s2[j])
{
i++;
j++;
next1[i] = j;
}
else
j = next1[j];
}
}
int KMP(char *s1, char *s2) //kmp算法主体;
{
int i, j;
int len1 = strlen(s1);
int len2 = strlen(s2);
for (i = 0, j = 0; i < len1&&j < len2;)
{
if (j == -1 || s1[i] == s2[j])
{
i++;
j++;
}
else
j = next1[j];
}
if (j == len2) //找到子串,就返回它的位置,否则,就返回-1;
return i - j;
else
return -1;
}
int main()
{
char s1[1005], s2[1005];
cin >> s1 >> s2;
getnext(s2);
int k = KMP(s1, s2);
cout << k << endl;
return 0;
}
即:s2在s1的“7”号位置出现(数组下标从零开始)
1.1 next数组的计算
在说next数组之前,先说一下字符串最长相同前缀后缀。
例如:
A B C D A B D
然而,next数组就是把上面相同前缀后缀后移一位,然后首位赋值为-1
代码实现:
void getnext(char *s2) //计算next数组;
{
int len2 = strlen(s2);
int i = 0, j = -1;
next1[0] = -1;
while (i < len2)
{
if (j == -1 || s2[i] == s2[j])
{
i++;
j++;
next1[i] = j;
}
else
j = next1[j];
}
}
next数组的含义:代表当前字符之前的字符串中,有多大长度的相同前缀后缀。例如next[7]=5,就说明在下标为7的字符之前的字符串中有长度为5的相同前缀后缀。
可以手写一下循环,就很好理解next数组的计算;
1.2 KMP算法
【KMP算法流程】:现在母串s1匹配到i的位置,子串s2匹配到j位置。
····································如果j=-1,或者当前字符匹配成功(s1[i]==s2[j]),都让i++,j++,继续匹配下一个字符;
····································如果j!=-1,且当前字符匹配失败(s1[i]!=s2[j]),则令i不变,j=next[j],就相当于s2相对于s1后移了j-next[j]位;即,匹配失败时,子串s2移动的位数等于=失配字符所在位置-失配字符对应的next值。此值大于等于1.
例如:
s1:BBCABCDABCDABD
s2:ABCDABD
第一次匹配:i=0,j=0;此时s1[0]!=s2[0],且j!=-1,则执行j=next[j],执行后,j=-1。此时满足条件“j==-1”,执行“i++,j++”,i=1,j=0。
第二次匹配:i=1,j=0;此时s1[1]!=s2[0],且j!=-1,则执行j=next[j],执行后,j=-1。此时满足条件“j==-1”,执行“i++,j++”,i=2,j=0。
第三次匹配:i=2,j=0;此时s1[2]!=s2[0],且j!=-1,则执行j=next[j],执行后,j=-1。此时满足条件“j==-1”,执行“i++,j++”,i=3,j=0。
第四次匹配:i=3,j=0;此时s1[3]==s2[0],执行“i++,j++”,i=4,j=1;
第五次匹配:i=4,j=1;此时s1[4]==s2[1],执行“i++,j++”,i=5,j=2;
·············
第十次匹配:i=9,j=6;此时s1[9]!=s2[6],且j!=-1,则执行j=next[j],执行后,j=2。则子串s2向后移动9-2=4位。继续匹配。
·············
一直匹配到s1末尾,此时,j=7,不满足循环条件“j<len2”,则循环结束,返回s1的位置=i-j;
代码实现如下:
int KMP(char *s1, char *s2) //kmp算法主体;
{
int i, j;
int len1 = strlen(s1);
int len2 = strlen(s2);
for (i = 0, j = 0; i < len1&&j < len2;)
{
if (j == -1 || s1[i] == s2[j])
{
i++;
j++;
}
else
j = next1[j];
}
if (j == len2) //找到子串,就返回它的位置,否则,就返回-1;
return i - j;
else
return -1;
}