学习笔记——KMP

最新推荐文章于 2025-06-12 10:41:46 发布

Young_20220202

最新推荐文章于 2025-06-12 10:41:46 发布

阅读量695

点赞数 22

文章标签：学习笔记

本文链接：https://blog.youkuaiyun.com/Young_20220202/article/details/143739546

版权

字符匹配算法一直是所有人的噩梦。除却难懂的思路，难卡的算法复杂度也是一个问题
下面是少许常见字符匹配算法及其常见衍生算法
在这里插入图片描述
也许有点看不清楚，但大致可以看到KMP算法的衍生算法是最多的

大致优缺点
KMP：速度平均O(n+m)，最慢O(nm)
BM&Sunday(未写):速度平均O(n)，最慢O(nm)
哈希(未写):平均复杂度O(n)，但有冲突风险，基本万能
（仅罗列单字符串比较）
其中BM&Sunday都是KMP的优化，所以优先讲KMP

什么是KMP

KMP是一种单字符串比较问题
举个例子：
有文本串 $SSSSSC$ 和模式串 $SSC$
现在要在文本串中找出模式串，请问怎么办？
肉眼都可以知道SSC在哪里，但如果文本串太长，就不方便了

因此，暴力法应运而生，以效率低下但十分稳定而著称

方法：对于每个文本串中的字母作为开头，匹配模式串

代码：

const int N=1007；//基本是最大值
int find(int s[],int t[],int n,int m){
	for(int i=0;i+m-1<n;i++){
		bool flg=1;
		for(int j=0,k=i;j<m;j++,k++)
			if(s[k]!=t[j])
				flg=0;
		if(flg)
			return i;
	}
	return -1;
}

~~有一种简洁而不失优雅的暴力美~~
怎么优化？
不难发现暴力法每一步都没有利用好上次的量，但怎么利用呢？
很容易发现，我们希望每次 $j$ 回退的距离尽量小
首先，我们希望能够最好是对于以一个节点为结尾（开头也可以，但结尾方便），迅速找到其对应的最远的长度。（说白了就是找出最大的 $l e n$ ，满足文本串 $[i - l e n + 1, i]$ 等于模式串 $[1, l e n]$ ）
我们考虑上一次计算对这次的贡献，已知对于文本串中第 $i - 1$ 个的值为 $a_{i-1}$ ，上一次计算结果为 $x$ ，此时可以发现，这次结果最大为 $x + 1$ ，并且对于这次结果 $y$ ，存在模式串 $b$ 中 $b_{y-1}=b_{x}=a_{i-1}$ （显然的），并且有 $b_y=a_i$ 以及 $b [1, y - 1] = b [x - y + 2, x]$

也就是说，只要统计对于一个 $x$ ，找出 $b$ 的 $[1, x]$ 区间段的公共前后缀（以下称为border）就行了（公共前后缀，就是一对相同长度的前缀和后缀，满足前缀=后缀）

不难发现，border的border是border，如图
在这里插入图片描述
（有点丑，见谅）

这意味着，我们可以通过最长border求出所有border，我们命名最长border数组为nx数组

求nx数组跟匹配思路类似，不再赘述，何况也有许多讲的比我好的，我只是提供一种在模式串上求border的方法罢了
代码：

const int N=1e6+7;
int nx[N];
int kmp(char s[],char t[],int n,int m){
	if(m>n)return -1;
	for(int i=1,j=0;i<m;i++){
		while(j&&t[i]!=t[j])j=nx[j-1];
		nx[i]=(t[i]==t[j]?++j:0);
	}
	for(int i=0,j=0;i<n;i++){
		while(j&&s[i]!=t[j])j=nx[j-1];
		if(s[i]==t[j])
			if(++j==m)
				return i;
	}
	return -1;
}