一、kmp模式匹配
如下图所示:
分别表示主串S和带匹配的模板串T;
对其进行匹配,一种很自然的方法是朴素算法,如下所示:
一个一个字符比较,当i指针和j指针指向的字符是否一致,如果一致往后移。
A和E不相等,那就把i指针回到2(即B),j移动到T串的第一位,然后继续这样的步骤。
仔细查看,我们就能发现,其实知道了前面3个字符ABC,KMP算法的想法是:设法利用这个已知信息,不要把搜索位置移回到已经比较过的位置,继续把它向后移。(即i不回溯,只改变j的值)。
而j值的多少取决于当前字符之前的串的前后串的相识度,我们把T串各个位置的j变化定义为一个数组next,那么next的长度是T的长度,定义函数为:
其推导的代码如下:
void get_next(wstring T, int *next)
{
int i ,j;
i = 1;
j = 0;
next[1] = 0;
while ( i <= T.length() )
{
if ( j == 0 || T[i - 1] == T[j - 1] ) //T[i]表示后缀的单个字符,T[j]表示前缀的单个字符
{
++i;
++j;
next[i] = j ;
}
else
{
j = next[j]; //若字符不相等,则J值回溯
}
}
for (int k = 1; k <= T.Size(); k++)
{
cout << next[k] << " ";
}
}
实例实现代码:
#include "stdafx.h"
#include <string>
#include <iostream>
using namespace std;
void get_next(wstring T, int *next)
{
int i ,j;
i = 1;
j = 0;
next[1] = 0;
while ( i <= T.length() )
{
if ( j == 0 || T[i - 1] == T[j - 1] ) //T[i]表示后缀的单个字符,T[j]表示前缀的单个字符
{
++i;
++j;
next[i] = j ;
}
else
{
j = next[j]; //若字符不相等,则J值回溯
}
}
for (int k = 1; k <= T.size(); k++)
{
cout << next[k] << " ";
}
}
int Index_KMP(wstring S, wstring T, int pos, int* next)
{
int i = pos;
int j = 1; //j用于子串T中当前位置下标值
get_next(T, next); //这里是以下标为1开始的
int S_index = S.size();
int T_index = T.size();
while( i <= S_index && j <= T_index )
{
if ( j == 0 || S[i-1] == T[j-1]) //i不变,调整j
{
++i;
++j;
}
else
{
j = next[j]; //回溯j
}
}
if (j > T_index) //如果是匹配T的下标j大于其总长,则表示找到其匹配位置
{
return i - T_index;
}
else
{
return 0;
}
}
int _tmain(int argc, _TCHAR* argv[])
{
wstring str_1 = _T("BBC ABCDAB ABCDABCDABDE");
wstring str_2 = _T("ABCDABD");
int n = str_2.length();
int* next = new int[n];
int pos_f = Index_KMP(str_1, str_2, 1, next);
return 0;
}
得到的next[j]为:0 1 1 1 1 2 3 (其j从1开始)
二、KMP模式匹配算法的改进
有人发现KMP还是有缺陷的。比如主串S=“aaaabcde”,子串T=“aaaaax”,其next数组值为012345.
按KMP调整j值,会发现下图中2,3,4,5步骤其实是多余的判断。
由于T串的第二,三,四,五位置的字符都与首位的‘a’相等,那么可以用首位next[1]的值去取代它相等字符后续next[j]的值。
假设取代的数组为nextval,若子串T=“ABCDABD”
其next数组为:
代码如下:
// kmp.cpp : 定义控制台应用程序的入口点。
//
#include "stdafx.h"
#include <string>
#include <iostream>
using namespace std;
void get_nextval(wstring T, int *nextval)
{
int i ,j;
i = 1;
j = 0;
nextval[1] = 0;
while ( i <= T.length() )
{
if ( j == 0 || T[i - 1] == T[j - 1] ) //T[i]表示后缀的单个字符,T[j]表示前缀的单个字符
{
++i;
++j;
if( T[i - 1] != T[j - 1] )
{
nextval[i] = j ;
}
else
{
nextval[i] = nextval[j];
}
}
else
{
j = nextval[j]; //若字符不相等,则J值回溯
}
}
for (int k = 1; k <= T.size(); k++)
{
cout << nextval[k] << " ";
}
}
int Index_KMP(wstring S, wstring T, int pos, int* next)
{
int i = pos;
int j = 1; //j用于子串T中当前位置下标值
get_nextval(T, next); //这里是以下标为1开始的
int S_index = S.size();
int T_index = T.size();
while( i <= S_index && j <= T_index )
{
if ( j == 0 || S[i-1] == T[j-1]) //i不变,调整j
{
++i;
++j;
}
else
{
j = next[j]; //回溯j
}
}
if (j > T_index) //如果是匹配T的下标j大于其总长,则表示找到其匹配位置
{
return i - T_index;
}
else
{
return 0;
}
}
int _tmain(int argc, _TCHAR* argv[])
{
wstring str_1 = _T("BBC ABCDAB ABCDABCDABDE");
wstring str_2 = _T("ABCDABD");
int n = str_2.length();
int* nextval = new int[n];
int pos_f = Index_KMP(str_1, str_2, 1, nextval);
return 0;
}
得到的结果:pos_f = 16