假设有两个字符串S、T,S为长串,T为短串,寻找T在S中出现的位置。
串的定义可以分为顺序串和链式串。此处以顺序串为例,结构定义如下(此处我们从数组位置1开始存储):
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#define MAXLEN 255
typedef struct { // 串的顺序存储结构
char ch[MAXLEN + 1]; // 存储串的一维数组
int length; // 串的当前长度
}SString;
/*
C语言为何不能进行字符串和数组直接赋值
原因:
数组名即地址是常量,不是变量,常量不能赋值,故而不能直接赋值。
*/
int main()
{
SString s;
char a[12] = "i love you";
for(int i = 1;i <= strlen(a);++i)
s.ch[i] = a[i - 1];
s.length = strlen(a);
SString t;
char b[5] = "love";
for(int i = 1;i <= strlen(b);++i)
t.ch[i] = b[i - 1];
t.length = strlen(b);
int next[255];
get_next(t, next);
printf("%d\n",kmp(s,t,next)); // 最终输出3
return 0;
}
方案一(时间复杂度为S.length * T.length)
暴力匹配,双重for循环。
/* 暴力匹配时间复杂度 O(S.length * T.length) */
int Index_BF(SString S, SString T){ // 在S中匹配T ,默认从ch[1]开始存储字符的
int i = 1; // i用来控制指向长串S
int j = 1; // j用来控制指向短串T
while(i <= S.length && j <= T.length){
if(S.ch[i] == T.ch[j]){ // 子串和主串依次匹配,则继续看下一个字符
i ++;
j ++;
}
else{ // 否则重新往后面匹配
i = i - j + 2; // 长串从本次的后一个位置开始匹配
j = 1; // 短串从头开始匹配
}
}
if(j > T.length) // T的每一位都匹配成功,j才会加到大于他自己的长度
return i - T.length; // 匹配成功后多了一个T.length,要减去
else
return -1;
}
方案二(时间复杂度为O(S.length + T.length))
对于暴力匹配中,我们每次失败后,指针i和j都要重新开始,但其实不用回退到开始也可以的,i不用回退,而j不用回退到T串的开始位置,而只需要回退到j = next[j]的位置,next[j]是根据串T建立的,下面来看是如何建立的。此处next是基于从T[1]开始存储的,当j=1时,next[1]=0,当j=2时,next[2]=1,当j>2时,如果j位置前面出现公共前后缀,比如在abccccabeee串中,当j=9时,即第一个位置,此时最大公共前后缀为ab,那么next[9]=2+1=3,如果j>2且没有公共前后缀,则next[j]=1。如果T从T[0]开始存储,next[j]所有值减一。
好啦,知道next[j]的建立原理,那么接下来开始上代码:
/* 一般从1开始,第1个为0,第二个为1,然后从第三个开始,有公共最长前后缀则等于前后缀长+1,没有则为1
* 此处以T从T[1]开始存储,如果从T[0]开始存储,i和j以及判断处需要减一
*/
void get_next(SString T, int (&next) [255]){ // 模式串的next数组
int i = 1;
int j = 0;
next[1] = 0;
while(i <= T.length){
if(j == 0 || T.ch[i] == T.ch[j]){ // 相等,继续往后
i ++;
j ++;
next[i] = j;
}else{ // 不相等时,如果j-1位置是一个公共前后缀的后缀,那么
j = next[j]; // j = next[j]就会跳转到公共前后缀的前缀末尾
} // 否则就会跳到串T的第一个字符位置-1处
}
}
下面继续上KMP代码,和暴力匹配基本一致,只是匹配失败后i不会退,j回退到next[j],判断多了一个条件:
/* kmp算法匹配时间复杂度 O(S.length + T.length) */
int kmp(SString S, SString T, int next[]){ // 在S中匹配T ,默认从ch[1]开始存储字符的
int i = 1; // i用来控制指向长串S
int j = 1; // j用来控制指向短串T
while(i <= S.length && j <= T.length){
if(j == 0 || S.ch[i] == T.ch[j]){ // 子串和主串依次匹配,则继续看下一个字符
i ++;
j ++;
}
else // 否则重新往后面匹配 ,i不用回退了
j = next[j]; // 要么回退到公共前缀末尾,要么回退到T的第一个位置-1
}
if(j > T.length) // T的每一位都匹配成功,j才会加到大于他自己的长度
return i - T.length; // 匹配成功后多了一个T.length,要减去
else
return -1;
}