【详解】KMP算法——多图,多例子(c语言)

本文深入浅出地介绍了KMP算法的原理与应用,通过大量实例和图表解释了如何避免传统字符串搜索中的多余回溯,详细解析了Next数组的计算方法,并提供了完整的C语言实现代码。

目录

前言

1.KMP算法是什么?

2.为什么需要KMP算法?

2.1主串找字串

2.2暴力求解

3.KMP准备工作

3.1字符串的前后子串

3.2最大前后相等子串

3.3最大前后相等子串练习

4.KMP算法

4.1简看KMP算法

5 Next数组     

5.1j该回溯的位置

 5.2学会计算Next数组           

5.3用数学表示next数组(重点)

5.3.1arr2[k] == arr2[j]

5.3.2 arr2[k] != arr2[j]

5.3.3 k回溯到尽头

6.代码实现KMP

6.1KMP外壳

6.2KMP内核

6.3KMP全部代码

7.结语


前言

KMP算法作为程序员的必修课之一,其抽象的过程让初学者叫苦不迭,但是当你完全理解过后会发现其中蕴含着创造者的无穷智慧。本篇文章我将以大量的例子与图片,为你讲解这个奇妙的算法。


1.KMP算法是什么?

KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出的,因此人们称它为克努特—莫里斯—普拉特操作(简称KMP算法)。KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现,函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n) [1]



 。(来自百度百科)

简而言之就是:减少在主串找子串的过程中回退的次数。(先有个概念就行,后面会仔细讲解)


2.为什么需要KMP算法?

在回答这个问题前我们需要知道先知道两个问题。

什么叫主串找子串?

不用kmp算法,直接暴力求解是怎样的?

2.1主串找字串

现在我们有主串:arr1[] = "abababc",子串:arr2[] = “abc”。那么我们在arr1中找到arr2在其中位置的过程就叫做主串找子串。

2.2暴力求解

在暴力求解中,我们是将子串和主串逐一匹配,如果第一个字符相等就继续匹配第二个字符,直到子串与主串全都匹配成功,就返回子串的位置,一旦其中某两个字符匹配不成功,主串就回到开始匹配字符的下一字符,而子串回到第一字符。

上面的话可能有一点绕,那么看了下面的图片你就会明白暴力求解的思路。

还是这俩字符串,主串:arr1[] = "abababc",子串:arr2[] = “abc”

(1) 第一次匹配成功,第二次匹配成功,第三次匹配不成功。

              

 (2) 前面匹配失败,第一个字符串回到第二个字符'b',第二个字符串回到第一个字符'a'处。

           第一次匹配失败。

           

(3) 前面匹配失败,第一个字符串回到第三个字符'a',第二个字符串回到第一个字符'a'处。

          第一次匹配成功,第二次匹配成功,第三次匹配不成功。

             

(4) 前面匹配失败,第一个字符串回到第四个字符'b',第二个字符串回到第一个字符'a'处。

          第一次匹配失败。

               

(5) 前面匹配失败,第一个字符串回到第五个字符'a',第二个字符串回到第一个字符'a'处。

          第一次匹配成功,第二次匹配成功,第三次匹配成功,子串走到尽头,成功找到在第一字符            串找到第二字符串。

                  

通过以上举例可以看出,传统的暴力求解,需要多次回溯,且第一个字符串和第二个字符串都需要回溯,而且例如(2)(4)步,明显回溯过去也一定是错的,那有没有什么办法让他回溯到特定的位置,不至于像暴力求解一样,产生许多不必要的步骤,于是就有了本篇的重点:

                                                               KMP算法!!!


3.KMP准备工作

在学习KMP算法之前我们还需要进行一些小小的的准备。这对你掌握KMP算法是非常必要的

3.1字符串的前后子串

先抛开找字符串的问题,抛开什么KMP算法,我们来了解一下什么叫一个字符串的前后相等子串。

--假设有这样一个字符串:a[] = "abcabcabc";

那么他的前子串的集合为:{"a","ab","abc","abca","abcab","abcabc","abcabca","abcabcab"}

看不懂?上图!图片顺序是从左向右哦!(注:作者懒,字符串的\0我没画😉)

--知道了什么叫前子串,那么字符的后子串也很好理解了。

他的后子串的集合为:{"c","bc","abc","cabc","bcabc","abcabc","cabcabc","bcabcabc"}

3.2最大前后相等子串

我们现在已经知道了字符串a[] = "abcabcabc"的两个信息:

前子串的集合为:{"a","ab","abc","abca","abcab","abcabc","abcabca","abcabcab"}

后子串的集合为:{"c","bc","abc","cabc","bcabc","abcabc","cabcabc","bcabcabc"}

很明显就可以看出前后两个子串相等的有{"abc","abcabc"};

那最大前后相等子串就是"abcabc",其长度为6。

3.3最大前后相等子串练习

kmp算法的准备工作已经完成,如果你还是有点不太清楚,这里有几个字符串,你不妨可以试着找出他们的最大前后相等子串,以及长度,来加深你对前面内容的的理解。

        a[] = "abcdefgh"                         b[] = "abcabcabcabcabc"        c[] = "aba"

        d[] = "hello world"                       e[] = "ababcabcdabcde"          f[] = "abcabcdeabcabcde"

 答案:

a[]:没有最大前后相等子串    0
b[]:"abcabcabcabc"         12
c[]:"a"                    1
d[]:没有最大前后相等子串    0
e[]:没有最大前后相等子串    0
f[]:"abcabcde"             8

4.KMP算法

4.1简看KMP算法

前面我们多次强调过,kmp算法只需要子串返回到特定位置,而主串不用返回。

这到底是一个怎样的过程呢?

还是这俩字符串,主串:arr1[] = "abababc",子串:arr2[] = “abc”

绿色是回溯的位置红色是匹配结束的位置。

(1)第一次匹配成功,第二次匹配成功,第三次匹配失败。

评论 48
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值