KMP算法 字符匹配

KMP是比较高效的一种字符匹配算法

str中查找是否存在pattern

基本思想:

1.       pattern的前i-1个与str[j-i+1]s[j-1]字符匹配时,但pattern[i]str[j]不匹配,用pattern[next[i]]str[j]比较,无需从str[j-i+2]开始遍历。因为pattern的字符串本身可能有重复子串,这样就可以省略一些比较步骤。

例如pattern=“abababc”,str=”ababababcab”,str[6]pattern[6]不匹配,我们只需比str[6]pattern[4]是否匹配,而无须去比较从str[1]开始比较,因为在pattern[6]之前,“abab”重复,pattern0~32~5相同

2.       KMP主要解决的问题就在于求出next数组,next[i]的值取决于以pattern[0]开头的子串,能够与以pattern[i-1]结尾的子串匹配的字符个数。

用个类似正则表达式的形式:^pattern[0].*.*pattern[i-1]$匹配的个数

例如pattern=“abcababc”

i                   子串                   next[i]

0                             -1               /*哨兵用*/

1        “a”                      0  

2       “ab”                   0

3        “abc”                 0

4        “abca”               1                /*”a””a”*/

5        “abcab”             2                /*”ab””ab”*/

6        “abcaba”          1                /*”a””a”*/

7        “abcabab”        2                /*”ab””ab”*/

编程中几个要点

1.       next[i]的值可通过next[i-1]来求解

2.       循环比较,若pattern[next[i]]str[j]不匹配,比较pattern[next[next[i]]]str[j]比较

3.       哨兵,next[0]=-1,3中一直不匹配,当next值为-1时停止

 

void KMPnext(char *pattern,int *next,int length)
{
	int i=1,j;
	next[0]=-1;/*哨兵,显然s[0]的下一个比较元素是无,其他的next值都是>=0*/
	for(;i<length;i++)
	{
		j=next[i-1];
		while(j>-1&&pattern[j]!=pattern[i-1])
			j=next[j];
		next[i]=j+1;
	}
}

int KMPfind(char*str,char*pattern,int*next,int length)
{
	int slen=strlen(str)+1;
	if(slen<length)
		return -1;
	int i=0,j=0;
	while(i<slen&&j<length)
	{
		if(j<=-1||str[i]==pattern[j])
		{
			++i;
			++j;
		}else 
		{
			j=next[j];
		}
	}
	if(j>=length)
		return i-length;
	else
		return -1;
}


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值