目录
前言
KMP算法作为程序员的必修课之一,其抽象的过程让初学者叫苦不迭,但是当你完全理解过后会发现其中蕴含着创造者的无穷智慧。本篇文章我将以大量的例子与图片,为你讲解这个奇妙的算法。
1.KMP算法是什么?
KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出的,因此人们称它为克努特—莫里斯—普拉特操作(简称KMP算法)。KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现,函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n) [1]
。(来自百度百科)
简而言之就是:减少在主串找子串的过程中回退的次数。(先有个概念就行,后面会仔细讲解)
2.为什么需要KMP算法?
在回答这个问题前我们需要知道先知道两个问题。
什么叫主串找子串?
不用kmp算法,直接暴力求解是怎样的?
2.1主串找字串
现在我们有主串:arr1[] = "abababc",子串:arr2[] = “abc”。那么我们在arr1中找到arr2在其中位置的过程就叫做主串找子串。
2.2暴力求解
在暴力求解中,我们是将子串和主串逐一匹配,如果第一个字符相等就继续匹配第二个字符,直到子串与主串全都匹配成功,就返回子串的位置,一旦其中某两个字符匹配不成功,主串就回到开始匹配字符的下一字符,而子串回到第一字符。
上面的话可能有一点绕,那么看了下面的图片你就会明白暴力求解的思路。
还是这俩字符串,主串:arr1[] = "abababc",子串:arr2[] = “abc”。
(1) 第一次匹配成功,第二次匹配成功,第三次匹配不成功。

(2) 前面匹配失败,第一个字符串回到第二个字符'b',第二个字符串回到第一个字符'a'处。
第一次匹配失败。

(3) 前面匹配失败,第一个字符串回到第三个字符'a',第二个字符串回到第一个字符'a'处。
第一次匹配成功,第二次匹配成功,第三次匹配不成功。

(4) 前面匹配失败,第一个字符串回到第四个字符'b',第二个字符串回到第一个字符'a'处。
第一次匹配失败。

(5) 前面匹配失败,第一个字符串回到第五个字符'a',第二个字符串回到第一个字符'a'处。
第一次匹配成功,第二次匹配成功,第三次匹配成功,子串走到尽头,成功找到在第一字符 串找到第二字符串。

通过以上举例可以看出,传统的暴力求解,需要多次回溯,且第一个字符串和第二个字符串都需要回溯,而且例如(2)(4)步,明显回溯过去也一定是错的,那有没有什么办法让他回溯到特定的位置,不至于像暴力求解一样,产生许多不必要的步骤,于是就有了本篇的重点:
KMP算法!!!
3.KMP准备工作
在学习KMP算法之前我们还需要进行一些小小的的准备。这对你掌握KMP算法是非常必要的。
3.1字符串的前后子串
先抛开找字符串的问题,抛开什么KMP算法,我们来了解一下什么叫一个字符串的前后相等子串。
--假设有这样一个字符串:a[] = "abcabcabc";
那么他的前子串的集合为:{"a","ab","abc","abca","abcab","abcabc","abcabca","abcabcab"}
看不懂?上图!图片顺序是从左向右哦!(注:作者懒,字符串的\0我没画😉)

--知道了什么叫前子串,那么字符的后子串也很好理解了。
他的后子串的集合为:{"c","bc","abc","cabc","bcabc","abcabc","cabcabc","bcabcabc"}

3.2最大前后相等子串
我们现在已经知道了字符串a[] = "abcabcabc"的两个信息:
前子串的集合为:{"a","ab","abc","abca","abcab","abcabc","abcabca","abcabcab"}
后子串的集合为:{"c","bc","abc","cabc","bcabc","abcabc","cabcabc","bcabcabc"}
很明显就可以看出前后两个子串相等的有{"abc","abcabc"};
那最大前后相等子串就是"abcabc",其长度为6。
3.3最大前后相等子串练习
kmp算法的准备工作已经完成,如果你还是有点不太清楚,这里有几个字符串,你不妨可以试着找出他们的最大前后相等子串,以及长度,来加深你对前面内容的的理解。
a[] = "abcdefgh" b[] = "abcabcabcabcabc" c[] = "aba"
d[] = "hello world" e[] = "ababcabcdabcde" f[] = "abcabcdeabcabcde"
答案:
a[]:没有最大前后相等子串 0
b[]:"abcabcabcabc" 12
c[]:"a" 1
d[]:没有最大前后相等子串 0
e[]:没有最大前后相等子串 0
f[]:"abcabcde" 8
4.KMP算法
4.1简看KMP算法
前面我们多次强调过,kmp算法只需要子串返回到特定位置,而主串不用返回。
这到底是一个怎样的过程呢?
还是这俩字符串,主串:arr1[] = "abababc",子串:arr2[] = “abc”。
绿色是回溯的位置,红色是匹配结束的位置。
(1)第一次匹配成功,第二次匹配成功,第三次匹配失败。

本文深入浅出地介绍了KMP算法的原理与应用,通过大量实例和图表解释了如何避免传统字符串搜索中的多余回溯,详细解析了Next数组的计算方法,并提供了完整的C语言实现代码。
最低0.47元/天 解锁文章
1985

被折叠的 条评论
为什么被折叠?



