KMP算法(Knuth-Morris-Pratt Algorithm)的C语言实现加注释

本文深入解析了Knuth-Morris-Pratt算法的核心原理,并通过示例代码演示了如何实现该算法。文章详细介绍了算法过程,包括模板匹配、最大后缀计算以及匹配过程中的状态转移,旨在帮助读者掌握字符串匹配技巧。

其实这个算法只要明白了原理就好了,如果不明白过程可以去这个链接看,里面写得很详细。

http://hi.baidu.com/chioyang/blog/item/e8b58f384f51f2c3d56225fb.html

 

我个人认为,这个算法的过程,你可以当成被匹配的字符串,例如t ,它有一个游标,标记为i, 它是相对模板 p来说是静止不动,模板p也有一个游标,我们假设为q, 如果匹配的话,那么字符串p 与模板 p同时向前移一个字符,如果不匹配的话,那么模板p相对 t移动, 用p当前获得的最大后缀去再匹配,这个过程如果理解了的话,那么下面算法的实现可以说是信手拈来。下面给我的代码,注释得不好,希望能帮助你理解。

 

 

<think>我们正在计算模式串"ababa"的Partial Match Table(PMT),也称为失配函数或next数组。 PMT的定义:对于模式串P[0..m-1],PMT[i]表示子串P[0..i]的最长相等真前缀和真后缀的长度(不包括整个子串)。 注意:真前缀和真后缀是指不包含整个字符串的前缀和后缀。 步骤: 1. 初始化:PMT[0] = 0,因为单个字符没有真前缀和真后缀。 2. 从i=1开始,计算每个位置i的PMT值。 模式串:a b a b a 位置0: P[0] = 'a' PMT[0] = 0 [因为只有一个字符] 位置1: P[0..1] = "ab" 真前缀:["a"] 真后缀:["b"] 没有相等的,所以PMT[1]=0 位置2: P[0..2] = "aba" 真前缀:["a", "ab"] 真后缀:["a", "ba"] 相等的最长真前缀和真后缀是"a",长度为1,所以PMT[2]=1 位置3: P[0..3] = "abab" 真前缀:["a", "ab", "aba"] 真后缀:["b", "ab", "bab"] 相等的最长真前缀和真后缀是"ab",长度为2,所以PMT[3]=2 位置4: P[0..4] = "ababa" 真前缀:["a", "ab", "aba", "abab"] 真后缀:["a", "ba", "aba", "baba"] 相等的最长真前缀和真后缀有:"a"(长度1)和"aba"(长度3),取最长的3,所以PMT[4]=3 但是,我们通常要求真前缀和真后缀不能是整个字符串,这里"aba"作为真后缀时,它并不等于整个字符串(整个字符串是"ababa"),所以是允许的。 然而,我们检查一下: 真前缀:P[0..2] = "aba" (索引0到2) 真后缀:P[2..4] = "aba" (索引2到4) -> 注意:这个真后缀是从索引2到4,长度为3。 因此,PMT[4]=3。 但是,我们也可以使用递推的方法(利用已经计算出的PMT值)来计算,这样更高效。 递推方法: 设i=0时,PMT[0]=0。 令j=0(表示当前匹配的前缀长度),i从1到m-1(m为模式串长度): while j>0 and P[i] != P[j]: j = PMT[j-1] # 回退到前一个匹配位置 if P[i] == P[j]: j += 1 PMT[i] = j 按照递推方法计算: 初始化:PMT[0]=0, j=0, i=1 i=1: P[1]='b', P[j]=P[0]='a' -> 不相等,且j=0,所以不进入while循环,然后比较不相等,所以PMT[1]=0,j保持0。 i=2: P[2]='a', P[j]=P[0]='a' -> 相等,则j增1,变为1,然后PMT[2]=j=1。 i=3: P[3]='b', P[j]=P[1]='b' -> 相等,则j增1,变为2,然后PMT[3]=2。 i=4: P[4]='a', P[j]=P[2]='a' -> 相等,则j增1,变为3,然后PMT[4]=3。 所以,递推方法得到的结果是:[0,0,1,2,3] 因此,模式串"ababa"的Partial Match Table为:[0,0,1,2,3] 注意:有时候next数组的定义会稍微不同,比如有些实现中会将整个PMT数组向右移动一位,并将next[0]设为-1,但这里我们计算的是标准的PMT。 所以,答案是:[0,0,1,2,3]</think>### KMP算法中模式串"ababa"的Partial Match Table计算 Partial Match Table(PMT)是KMP算法的核心组件,用于在匹配失败时确定模式串的滑动距离。PMT的值表示模式串前缀与后缀的最长匹配长度(不包括整个子串)。以下是模式串$P = \text{"ababa"}$的计算过程: #### 计算步骤: 1. **$i=0$**(子串"a") - 真前缀:空集 - 真后缀:空集 - 最长匹配长度:$0$ $\text{PMT}[0] = 0$ 2. **$i=1$**(子串"ab") - 真前缀:$["a"]$ - 真后缀:$["b"]$ - 无相同前后缀 $\text{PMT}[1] = 0$ 3. **$i=2$**(子串"aba") - 真前缀:$["a", "ab"]$ - 真后缀:$["a", "ba"]$ - 最长匹配:"a"(长度$1$) $\text{PMT}[2] = 1$ 4. **$i=3$**(子串"abab") - 真前缀:$["a", "ab", "aba"]$ - 真后缀:$["b", "ab", "bab"]$ - 最长匹配:"ab"(长度$2$) $\text{PMT}[3] = 2$ 5. **$i=4$**(子串"ababa") - 真前缀:$["a", "ab", "aba", "abab"]$ - 真后缀:$["a", "ba", "aba", "baba"]$ - 最长匹配:"aba"(长度$3$) $\text{PMT}[4] = 3$ #### 最终结果: 模式串$\text{"ababa"}$的PMT为: $$[0, 0, 1, 2, 3]$$ #### 递推公式验证(高效算法): ```python def compute_pmt(pattern): pmt = [0] * len(pattern) j = 0 # 最长匹配前缀的指针 for i in range(1, len(pattern)): while j > 0 and pattern[i] != pattern[j]: j = pmt[j-1] # 回退到前一个匹配位置 if pattern[i] == pattern[j]: j += 1 pmt[i] = j return pmt print(compute_pmt("ababa")) # 输出: [0, 0, 1, 2, 3] ``` 此算法通过动态规划复用已计算的PMT值,时间复杂度为$O(m)$($m$为模式串长度)[^1]。 --- ### 相关问题 1. KMP算法中PMT的作用是什么?如何利用它优化字符串匹配? 2. 对于模式串$\text{"aabaaab"}$,如何计算其Partial Match Table? 3. KMP算法与朴素字符串匹配算法的时间复杂度有何区别? 4. 在PMT计算过程中,为什么要求匹配的前后缀必须是真子串(即不能是完整子串)? [^1]: 基于KMP算法的经典实现,参考《算法导论》字符串匹配章节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值