KMP算法

最新推荐文章于 2025-06-12 22:47:31 发布

level_xiwei

最新推荐文章于 2025-06-12 22:47:31 发布

阅读量377

点赞数 5

文章标签：算法 c++ 数据结构

本文链接：https://blog.youkuaiyun.com/2301_80001343/article/details/143288253

版权

一.BF算法

1.介绍：BF算法，即暴力（Brute Force）算法，是一种普通的模式匹配算法。

2.特点：主串的i和子串的j都会回退

3.算法思路：利用两次for循环，当主串和子串不匹配时，主串的i回到此次循环开始时的下一个位置，子串回到最开始，开始新的一轮循环验证

4.代码实现：

int BF(string str, string sub)
{
	int lenstr = str.size();
	int lensub = sub.size();
	if (lenstr == 0 || lensub == 0) return -1;

	for (int i = 0; i < lenstr; i++)
	{
		int tmp = i;
		int flag = 0;
		for (int j = 0; j < lensub; j++)
		{
			if (str[tmp] == sub[j])
			{
				tmp++;
			}
			else
			{
				flag = 1;
				break;
			}
		}
		if (flag == 0) return i;
	}
    return -1;
}

二.KMP算法

1.介绍：KMP算法是一种改进的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt提出的，因此人们称它为克努特—莫里斯—普拉特操作（简称KMP算法）。

2.核心：利用匹配失败后的信息尽量减少主串的匹配次数，从而达到快速匹配的目的

3.特点：主串的i不会回退，子串的j也不是每次都回退到0号位置

4.算法思路

(1)借助next数组保存子串的某个位置匹配失败后应该回退到的位置信息

(2)遍历子串和主串，若是两者在该位置匹配成功，则继续向下继续匹配；若是不成功，则让j回退，即令j=next[j]。

(3)next数组的创建

<1>next[j]的求解规则：找到匹配成功部分的两个相等的真子串（不包含自身），即一个以0下标字符开始，另一个以j-1下标字符结尾

注：规定next[0]=-1,next[1]=0;

<2>求next[j+1]：假设next[j]==k

1>若i和k对应的字符相等，即sub[i]==sub[k]，此时next[j+1]=k+1;

证明：由于next[j]==k，所以可知：sub[0]...sub[k-1]=sub[x]...sub[i-1]，可得x=i-k;

又因为sub[i]==sub[k],故sub[0]...sub[k]=sub[i-k]...sub[i],即next[i+1]=k+1;

2>若i和k对应的字符不相等，即sub[i]！=sub[k]，此时让k回退直至出现sub[i]==sub[k]的情况，即令k=next[k]

5.代码实现

#include<iostream>
#include<vector>
#include<string>
#include<assert.h>
using namespace std;

void GetNext(string sub, vector<int>& next)
{
	int lensub = sub.size();
	next[0] = -1;
	next[1] = 0;

	int i = 2;//当前位置的下标
	int k = 0;//前一个位置对应在next数组中的值
	while (i < lensub)
	{
		if (k==-1 || sub[i - 1] == sub[k])
		{
			next[i] = k + 1;
			i++;
			k++;
		}
		else
		{
			//如果sub[i-1]!=sub[k],就回退k，直到sub[i-1]==sub[k]
			k = next[k];
		}
	}
}

//str:主串，sub:子串，pos:主串中的位置
int KMP(string str, string sub, int pos)
{
	int lenstr = str.size();
	int lensub = sub.size();
	if (lenstr == 0 || lensub == 0) return -1;
	if (pos < 0 || pos >= lenstr) return -1;

	int i = 0, j = 0;
	//next[j]：保存子串的某个位置匹配失败后应该回退到的位置
	vector<int> next(lensub);
	GetNext(sub, next);
	while (i < lenstr && j < lensub)
	{
		if (j==-1 || str[i] == sub[j])
		{
			i++;
			j++;
		}
		else
		{
			//不匹配，j回退到某位置重新进行匹配
			j = next[j];
		}
	}
	if (j >= lensub) return i - j;
	else return -1;

}

6.补充nextval数组的求解方法

(1)当回退到的位置和当前字符一样时，就写回退到的位置对应的nextval值

(2)当回退到的位置和当前字符不一样时，就写当前字符原来的next值