字符串匹配kmp算法

一、kmp模式匹配

如下图所示:

 

分别表示主串S和带匹配的模板串T;

对其进行匹配,一种很自然的方法是朴素算法,如下所示:

 

一个一个字符比较,当i指针和j指针指向的字符是否一致,如果一致往后移。


A和E不相等,那就把i指针回到2(即B),j移动到T串的第一位,然后继续这样的步骤。

 

仔细查看,我们就能发现,其实知道了前面3个字符ABC,KMP算法的想法是:设法利用这个已知信息,不要把搜索位置移回到已经比较过的位置,继续把它向后移。(即i不回溯,只改变j的值)。

而j值的多少取决于当前字符之前的串的前后串的相识度,我们把T串各个位置的j变化定义为一个数组next,那么next的长度是T的长度,定义函数为:


其推导的代码如下:

void get_next(wstring T, int *next)
{
	int i ,j;

	i = 1;
	j = 0;
	
	next[1] = 0;

	while ( i <= T.length() ) 
	{
		if ( j == 0 || T[i - 1] == T[j - 1] )  //T[i]表示后缀的单个字符,T[j]表示前缀的单个字符
		{
			++i;
			++j;
			next[i] = j ;
		}
		else
		{
			j = next[j];        //若字符不相等,则J值回溯
		}
	}

	for (int k = 1; k <= T.Size(); k++)
	{
		cout << next[k] << "  ";
	}
}
实例实现代码:

#include "stdafx.h"
#include <string>
#include <iostream>

using namespace std;

void get_next(wstring T, int *next)
{
	int i ,j;

	i = 1;
	j = 0;
	
	next[1] = 0;

	while ( i <= T.length() ) 
	{
		if ( j == 0 || T[i - 1] == T[j - 1] )  //T[i]表示后缀的单个字符,T[j]表示前缀的单个字符
		{
			++i;
			++j;
			next[i] = j  ;
		}
		else
		{
			j = next[j];        //若字符不相等,则J值回溯
		}
	}

	for (int k = 1; k <= T.size(); k++)
	{
		cout << next[k] << "  ";
	}
}


int Index_KMP(wstring S, wstring T, int pos, int* next)
{
	int i = pos;

	int j = 1;  //j用于子串T中当前位置下标值

	get_next(T, next);  //这里是以下标为1开始的

	int S_index = S.size();
	int T_index = T.size();

	while( i <= S_index  && j <= T_index )
	{
		if ( j == 0 || S[i-1] == T[j-1])   //i不变,调整j
		{
			++i;
			++j;
		}
		else
		{
			j = next[j];   //回溯j
		}
	}
	if (j > T_index)      //如果是匹配T的下标j大于其总长,则表示找到其匹配位置
	{
		return i - T_index;
	}
	else
	{
		return 0;
	}

}

int _tmain(int argc, _TCHAR* argv[])
{
	wstring str_1 = _T("BBC ABCDAB ABCDABCDABDE");
	wstring str_2 = _T("ABCDABD");
	
	int n = str_2.length();
	int* next = new int[n];

	int pos_f = Index_KMP(str_1, str_2, 1, next);


	return 0;
}

得到的next[j]为:0 1 1 1 1 2 3 (其j从1开始)

二、KMP模式匹配算法的改进
有人发现KMP还是有缺陷的。比如主串S=“aaaabcde”,子串T=“aaaaax”,其next数组值为012345.
按KMP调整j值,会发现下图中2,3,4,5步骤其实是多余的判断。


由于T串的第二,三,四,五位置的字符都与首位的‘a’相等,那么可以用首位next[1]的值去取代它相等字符后续next[j]的值。

假设取代的数组为nextval,若子串T=“ABCDABD”

其next数组为:


代码如下:

// kmp.cpp : 定义控制台应用程序的入口点。
//

#include "stdafx.h"
#include <string>
#include <iostream>

using namespace std;

void get_nextval(wstring T, int *nextval)
{
	int i ,j;

	i = 1;
	j = 0;
	
	nextval[1] = 0;

	while ( i <= T.length() ) 
	{
		if ( j == 0 || T[i - 1] == T[j - 1] )  //T[i]表示后缀的单个字符,T[j]表示前缀的单个字符
		{
			++i;
			++j;
			
			if( T[i - 1] != T[j - 1] )
			{
				nextval[i] = j  ;
			}
			else
			{
				nextval[i] = nextval[j];
			}
			
		}
		else
		{
			j = nextval[j];        //若字符不相等,则J值回溯
		}
	}

	for (int k = 1; k <= T.size(); k++)
	{
		cout << nextval[k] << "  ";
	}
}



int Index_KMP(wstring S, wstring T, int pos, int* next)
{
	int i = pos;

	int j = 1;  //j用于子串T中当前位置下标值

	get_nextval(T, next);  //这里是以下标为1开始的

	int S_index = S.size();
	int T_index = T.size();

	while( i <= S_index  && j <= T_index )
	{
		if ( j == 0 || S[i-1] == T[j-1])   //i不变,调整j
		{
			++i;
			++j;
		}
		else
		{
			j = next[j];   //回溯j
		}
	}
	if (j > T_index)      //如果是匹配T的下标j大于其总长,则表示找到其匹配位置
	{
		return i - T_index;
	}
	else
	{
		return 0;
	}

}

int _tmain(int argc, _TCHAR* argv[])
{
	wstring str_1 = _T("BBC ABCDAB ABCDABCDABDE");
	wstring str_2 = _T("ABCDABD");

	
	int n = str_2.length();
	int* nextval = new int[n];

	int pos_f = Index_KMP(str_1, str_2, 1, nextval);


	return 0;
}

得到的结果:pos_f = 16


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值