本文适合对kmp算法有一定基础的读者,且重点说明next数组求法
一,对几个概念需申明
概念I:字符串的前缀,后缀
例:Str = "abcabc"
Str的前缀 {a,ab,abc,abca,abcab}
Str的后缀 {c,bc,abc,cabc,bcabc}
故 Str的最长公共前后缀 = abc
概念II:next数组
next[i] = j 指长度为i-1的字符串最长公共前后缀为j,即String[0,1,..,j-1] == String[i-j,i-j+1,..,i-1]
Str的next数组
next[0] = -1 //初始为-1
next[1] = 0
next[2] = 0 /// String[0-1] = {ab} 最长公共前缀后缀长为0
....
next[5] = 2 /// String[0-4] = {abcab} 最长公共前后缀为2
二,求next数组
初始next[0] = -1
怎么由 next[j] = k推出next[j+1]的值?
next[j] == k:指在模式串中 {Str(0),Str(1),...,Str(k-1)} = {Str(j-k),Str(j-k+1),...,Str(j-1)}
Case1: 若 Str[j] == Str[k],那么由上知则有{Str(0),Str(1),...,Str(k-1),Str(k)} = {Str(j-k),Str(j-k+1),...,Str(j-1),Str(j)}
即有 next[j+1] = next[j] + 1 = k + 1;
0 1 2 3 4 5 6 7
例Str = a b c d a b c d
已知 next[6] = 2,那么next[7] = ?
因为 Str[6] = Str[next[6]],所以next[7] = next[6] + 1 = 3
Case2: 若 Str[j] != Str[k],那么如何求next[j+1]?
这里需要用递归思维来理解
若Str[next[k]] == Str[j],令 k' = next[k] 那么由上知有 Str[0,1,...,k-1] = Str[j-k,j-k+1,...,j-1];
若Str[next[k]] != Str[j],重复k = next[k]操作,直至Str[k] == Str[j]结束重复操作,同理令k' = next[k]
即next[j+1] = next[k] + 1 = k' + 1
例 0 1 2 3 4 5 6 7 8
j j+1
Str = c u c x c u c u x k = next[j] = 3
Str[j] != Str[next[j]],则执行 while(Str[k] != Str[j]) k = next[k]; 则有 k = 1,Str[k] == Str[j],可得next[j+1] = k+1 = 2
#include <cmath>
#include <cstdio>
#include <cstring>
using namespace std;
const int maxn = 105;
int next[maxn];
void get_next(char *p,int next[])
{
int p_len = strlen(p);
next[0] = -1;
int k= -1,j = 0;
while(j < p_len - 1)
{
/*** k为最长公共前缀和后缀的长度 ***/
if(k == -1 || p[k] == p[j])
{
/*** k == -1模式串已经到开头,也需k++,j++***/
k++;
j++;
next[j] = k;
}
else
k = next[k];
}
//for (int i=0;i<p_len;i++)
//{
// printf("%d ",next[i]);
//}
//printf("\n");
}
int kmp(char *ts,char *ps)
{
int t_len = strlen(ts);
int p_len = strlen(ps);
get_next(ps,next);
int i = 0,j = 0;
while(i < t_len && j < p_len)
{
if(j == -1 || ts[i] == ps[j]){
/// 当 j = -1时 i也要移动,j也要移动
i++;
j++;
}
else{
/*** 失配往前回溯 ***/
j = next[j];
}
if(j == p_len) return i - p_len; // 如果成功返回模式串在文本串起始位置
}
return -1; //匹配不成功
}
int main()
{
char ts[maxn] = {"hsahcucxcucuxjioksa"},ps[maxn] = {"cucxcucux"};
int res = kmp(ts,ps);
printf("%d\n",res);
return 0;
}
以上是我个人理解,如有错误请不吝赐教!!!!
原创不易,多谢点赞。。。
本文深入探讨了KMP算法中的next数组,解释了字符串的前缀和后缀概念,以及next数组的计算方法,包括当字符串字符匹配和不匹配时如何推导next[j+1]的值。
2251

被折叠的 条评论
为什么被折叠?



