字符串匹配(BF算法和KMP算法)

本文详细介绍了BF算法和KMP算法在字符串匹配中的应用。BF算法通过逐个比较字符来寻找子串,而KMP算法则利用部分匹配表(next数组)避免了不必要的回溯,提高了查找效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

看了老师的录频,感觉还是得自己动手写写,不然估计可能不太懂,哈哈,那我们就先来看一下BF算法:

我们先来看一个例子:现有这样的一个字符串“ababcabcdabcde”和“abcd”;

BF算法应该是这样的:


不知道大家看懂了没,没关系,我们再来看一下代码再捋捋。

int BF(const char *s,const char *sub,int pos)
{
	int i = pos;
	int j = 0;
	int lens = strlen(s);
	int lensub = strlen(sub);
	while(i<lens&&j<lensub)
	{
		if(s[i] == sub[j])
		{
			i++;
			j++;
		}
		else
		{
			i = i-j+1;
			j = 0;
		}
	}
	if(j>=lensub)
	{
		return i-j;
	}
	else
	{
		return -1;
	}
}
int main()
{
	char *s = "ababcdabe";
	char *sub = "abcd";
	cout<<BF(s,sub,0)<<endl;
	cout<<BF(s,sub,3);
	return 0;
}

结果:


总结:不知道大家发现没有,i每次都需要回退到i-j+1处,但是就拿第一次匹配失败来说,i指向b,j指向a,b和a明显不相同,i就没有必要回退了。

那我们现在来看一下KMP算法,这个还不怎么好解释,画图先看看。

我们先来举一个例子s:abcababcabc        sub:abcabc

此时i指向s串的a,j指向sub的a,开始匹配,一直到:i指向s的第三个a,j指向sub的最后一个c,发现此刻不匹配,但是我们现在不需要将i回退,我们只需要将j回退到适当的k的位置上,


那么现在,最起码我们不用再将i回退,j也不用回退到原来的0的位置上了。

但是现在,我们最重要的是,怎么才能找到这个合适的k呢????????

我们再来看图:


这样我们就会轻易的发现,红色下划线的两个字符串相等,由于我们是在a和c的时候匹配失败的,所以我们取之前他的子集也是匹配的,所以蓝色下划线的两个字符串也是相等的,那么我们自然也可以推出在sub串中,红色下划线的字符串和蓝色下划线的字符串是相等的

那我们用表达式把它表达出来:

从P0......Pk-1  =  Px.......Pj-1;(x的位置我们现在还不知道)

那么就又有了:k-1-0 = j-1-x;那么就可以推出x = j-k;

那么也就有了:P0......Pk-1 = Pj-k......Pj-1;

那么其实我们也可以换种方式说:我们要找到匹配成功部分的两个相等的真字串,一个以0下标开头,一个以j-1下标结尾。

那么我要做的是将sub每一个可能出现失配的所有的k值next数组来保存。

现在我们来求一下每一个下标的k值:

以a  b  a  b  c  a  b  c  d  a  b  c  d  e

next[0] 我们初始为-1;

next[1]:a         b  a  b  c  a  b  c  d  a  b  c  d  e,真字串长度为0,  next[1] = 0;

next[2]:a  b         a  b  c  a  b  c  d  a  b  c  d  e,真字串长度为0,next[2] = 0;

next[3]:        b  c  a  b  c  d  a  b  c  d  e,真字串长度为1,next[3] = 1;

next[4]:a  b  a  b         c  a  b  c  d  a  b  c  d  e,真字串长度为2,next[4] = 2;

next[5]:a  b  a  b  c         a  b  c  d  a  b  c  d  e,真字串长度为0,  next[5] = 0;

next[6]:a  b  a  b  c  a        b   c  d  a  b  c  d  e,真字串长度为1,  next[6] = 1;

next[7]:a  b  a  b  c  a  b         c  d  a  b  c  d  e,真字串长度为2,  next[7] = 2;

next[8]:a  b  a  b  c  a  b  c         d  a  b  c  d  e,真字串长度为0,  next[8] = 0;

next[9]:a  b  a  b  c  a  b  c  d         a  b  c  d  e,真字串长度为0,  next[9] = 0;

next[10]:b a  b  c  a  b  c  d  a        b  c  d  e,真字串长度为1,  next[10] = 1;

next[11]:a  b   a  b  c  a  b  c  d a  b       c  d  e,真字串长度为0,  next[11] = 2;

next[12]:a  b  a  b  c  a  b  c  d  a  b  c       d  e,真字串长度为0,  next[12] = 0;

next[13]:a  b  a  b  c  a  b  c  d  a  b  c   d       e,真字串长度为0,  next[13] = 0;

哇,打的我快吐血了

那我们怎么用代码来求这个next数组呢(上面是我们手动求的):

首先,不管是怎么样的字符串,我们都有next[0] = -1,next[1] = 0;那么如果我们能通过next[i]的值来推出next[i+1]的值,那我们就万事大吉了,那么我们就要找next[i]和next[i+1]d的关系:

那我们不妨先假设next[j] = k;那么就有:P0.....Pk-1   =   Pj-k.....j-1.

如果Pk = Pj;我们就能推出:P0.......Pk =  Pj-k........Pj  =>  next[i+1] = k+1;

例如:

next[6]:a  b  a  b  c  a        b   c  d  a  b  c  d  e, next[6] = 1;//k等于1,

next[7]:a  b  a  b  c  a  b         c  d  a  b  c  d  e, next[7] = 2;//此时k= 1,j =6:P0.....P1  =  P5......P6(P0....Pk = Pj-1......Pj) ,那么next[7] = k+1 = 2;

qi其实说白了就是新增的两个字符是相等的。。。。

那么还有第二种可能就是Pj != Pk

我们重新举个例子:



注意是:k = next[k];我们刚刚是在2的位置上失配的。。。。。。

那我们现在看一下代码的实现:

void GetNext(int *next,const char *sub)
{
	int lensub = strlen(sub);
	next[0] = -1;
	next[1] = 0;
	int i = 2;//i已经加1了
	int k = 0;
	while(i<lensub)
	{
		if((k == -1)||(sub[k] == sub[i-1]))//Pk == Pi
		{
			next[i++] = ++k;//k也要更新	
		}
		else
		{
			k = next[k];//k可能变成-1
		}
	}
}
int KMP(const char *s,const char*sub,int pos)
{
	int i = pos;
	int j = 0;
	int lens = strlen(s);
	int lensub = strlen(sub);
	int *next = new int[lensub];
	assert(NULL!=next);
	GetNext(next,sub);
	while(i<lens&&j<lensub)
	{
		if((s[i] == sub[j])||(j==-1))
		{
			i++;
			j++;
		}
		else
		{
			j = next[j];//回退k值
		}
	}
	delete next;
	if(j>=lensub)//找到了
		return i-j;
	else
		return -1;
}
int main()
{
	char *s = "ababcdabe";
	char *sub = "abcd";
	cout<<KMP(s,sub,0)<<endl;
	cout<<KMP(s,sub,3);
	return 0;
}



### BF算法KMP算法的实现方式 #### BF算法 暴力匹配BF算法是一种简单的字符串匹配方法。该算法通过逐一比较主串模式串中的字符来查找匹配项。具体来说,在每次不匹配的情况下,主串指针会回溯到上一次匹配起始位置之后的一个新位置,而模式串则重新从头开始匹配[^2]。 ```java public boolean bf(String text, String pattern) { int n = text.length(); int m = pattern.length(); for (int i = 0; i <= n - m; ++i) { int j; for (j = 0; j < m && pattern.charAt(j) == text.charAt(i + j); ++j); if (j == m) return true; // 找到了完整的匹配 } return false; } ``` #### KMP算法 相比之下,KMP算法利用了部分匹配的信息以避免不必要的重复扫描。当遇到不匹配的情况时,不是简单地将主串指针向前推进一位并重置模式串指针至开头,而是依据预先计算好的`next`数组调整模式串的位置继续尝试匹配。这样可以显著减少比较次数,提高效率[^3]。 ```java public class KMP { private static final void computeLPSArray(char[] pat, int M, int lps[]) { int length = 0; // 长度 of the previous longest prefix suffix int i = 1; lps[0] = 0; // LPS 的第一个值总是 0 while (i < M) { if (pat[i] == pat[length]) { length++; lps[i] = length; i++; } else { if (length != 0) { length = lps[length - 1]; } else { lps[i] = 0; i++; } } } } public static int KMPSearch(String txt, String pat) { int N = txt.length(), M = pat.length(); char T[] = txt.toCharArray(); char P[] = pat.toCharArray(); int lps[] = new int[M]; /* Preprocess the pattern */ computeLPSArray(P, M, lps); int i = 0; // index for txt[] int j = 0; // index for pat[] while ((N - i) >= (M - j)) { if (P[j] == T[i]) { j++; i++; } if (j == M) { System.out.println("Found pattern at index " + (i-j)); j = lps[j-1]; } // mismatch after j matches else if (i < N && P[j] != T[i]) { // Do not match lps[0..lps[j-1]] characters, // they will match anyway if (j != 0) j = lps[j-1]; else i = i+1; } } return -1; } } ``` ### 性能对比 对于最坏情况下的时间复杂度而言: - **BF算法**: O(n * m),其中n为主串长度,m为模式串长度。这是因为每当发生失配时,都需要回到之前的状态重新开始比较。 - **KMP算法**: O(n + m),因为预处理阶段构建`next`数组的时间开销是O(m),而在实际搜索过程中每个字符最多只会被访问两次——一次作为主串的一部分,另一次可能是在模式串内参与比较。因此整体性能更优。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值