【字符串匹配】KMP

2024-8-28 ·最后更新时间 2024-8-28

1,Recommendation\Large\mathcal{1,Recommendation}1,Recommendation
Knuth-Morris-Pratt 字符串查找算法,简称为KMP算法,常用于在一个文本串 S 内查找另一个文本 P 的出现位置,因为时间复杂度优异而被广泛使用。

这个算法由 Donald Knuth、Vaughan Pratt、James H. Morris 三人于 1977 年联合发表,故取这 3 人的姓氏命名此算法。

2,Prefix function\Large\mathcal{2,Prefix\ function}2,Prefix function
在正式学习 KMP 算法之前我们要对前缀函数有一定的了解。
比如给你一个字符串:S=ABADABAS=ABADABAS=ABADABA
那么前缀后缀相同时的最长长度是多少?很显然一定 333 ABA\color{red}{ABA}ABADDDABA\color{red}{ABA}ABA
那么在数学中我们就会给这种形式的数值常用 π\piπ 来表示。
那么我们如果把所有 SSS 的前缀给列出来,并且对与每个前缀都求出对应的 π\piπ 那么就形成了前缀函数,如:

iii1234567
SSSAAAABABABABAABAABAABADABADABADABADAABADAABADAABADABABADABABADABABADABAABADABAABADABA
π\piπ000000111000111222333

这就是我们的前缀函数,但是…它和 KMP 有什么关系呢?

3,KMP\Large\mathcal{3,KMP}3,KMP
接下来我就要根据前缀函数来推演出 KMP 算法。
假设文本串 S=EACEEABCS=EACEEABCS=EACEEABC,模式串 P=EABP=EABP=EAB
考虑什么时候 PPP 可以匹配上 SSS 的字串。
我们可以这样,先用一个奇妙字符给他们衔接起来就变成了 EAB#EACEEABCEAB\#EACEEABCEAB#EACEEABC
然后我们就可以轻而易举地根据前缀函数得知,当且仅当 πi=len(P)\pi_i = len(P)πi=len(P) 的时候才可以匹配上。
我们可以浅浅证明一下,因为前缀函数的定义就是到了 iiiπi\pi_iπi 为前缀后缀相同时的最长长度,因为有特殊符号所以 max{πi}=len(P)max\{\pi_i\} = len(P)max{πi}=len(P) 所以 PPP 匹配上时,πi=len(P)\pi_i=len(P)πi=len(P)
接下来文中出现的S均为一般的字符串接下来文中出现的 S 均为一般的字符串接下来文中出现的S均为一般的字符串
那么接下来的问题就是如何求 πi\pi_iπi 了。
我们可以把字符串想象成一些点,那么就变成了:

那么如果我们现在知道 πi−1\pi_{i-1}πi1 的数值的话:

那么轻而易举地我们可以知道当 Sπi−1+1S_{\pi_{i-1}+1}Sπi1+1SiS_iSi 相等时 πi=πi−1+1\pi_i = \pi_{i-1}+1πi=πi1+1,于是我们可以写出一个不完整的代码:

for(int i=1;i<=s.size();++i){
  int len=pi[i-1];
  if(s[i]==s[len]){
    pi[i]=len+1;
  }
}

BUT 不相等怎么办?那我们是不是尽量考虑次小的 πi\pi_iπi?那我们是不是又可以写出一个代码:

for(int i=1;i<=s.size();++i){
  int len=pi[i-1];
  while(s[i]!=s[len]){
    len=next_pi(i-1);
  }
  if(s[i]==s[len]){
    pi[i]=len+1;
  }
}

接下来我们就要解决 next_pi(x) 这个函数怎么求,我们可以再画一个图:

别问为什么图变了,如果我们仔细观察 πi−1′\pi^{'}_{i-1}πi1πi−1\pi_{i-1}πi1 的关系我们可以发现,[0,πi−1′][0,\pi^{'}_{i-1}][0,πi1] 这段字符串本质上是 [0,πi−1][0,\pi_{i-1}][0πi1] 的一段后缀,又根据前缀函数可知,[i−πi−1′,i−1][i-\pi^{'}_{i-1},i-1][iπi1i1] 一定是与 [0,πi−1′][0,\pi^{'}_{i-1}][0πi1] 相等的,所以 [0,πi−1′][0,\pi^{'}_{i-1}][0πi1] 是等于 [0,πi−1][0,\pi_{i-1}][0πi1] 的后缀的!也就是 πi−1′\pi^{'}_{i-1}πi1 是等同于 πpii−1\pi_{pi_{i-1}}πpii1 的所以我们终于可以把代码补全了qwq:

for(int i=1;i<=s.size();++i){
  int len=pi[i-1];
  while(len&&s[i]!=s[len]){
    len=pi[len-1];
  }
  if(s[i]==s[len]){
    pi[i]=len+1;
  }
}

那么,如果你完完整整的看完了这篇博客,你可能会觉得这和你印象中的 KMP 不太一样,但是如果你把到 #\## 之前的和之后的单独拆开你会发现这就变成了你熟悉的 KMP,但这也表示着重要的一点,你需要点赞,收藏,关注我qwq。

### KMP算法的实现与原理 KMP(Knuth-Morris-Pratt)算法是一种高效的字符串匹配算法,它通过预先处理模式串的部分匹配信息,在主串中寻找子串的过程中减少不必要的字符比较。以下是关于该算法的核心概念及其具体实现。 #### 部分匹配表(Next数组) 部分匹配表是KMP算法的关键所在。它的作用在于记录模式串前缀和后缀的最大重合长度。这种特性使得在发生失配时,可以直接跳转到已知位置继续匹配而无需重新开始[^2]。 对于给定的模式串`P`,可以通过以下方式计算得到对应的`next[]`数组: ```python def compute_next_array(pattern): next_arr = [0] * len(pattern) j = 0 # 前缀指针 for i in range(1, len(pattern)): while j > 0 and pattern[i] != pattern[j]: j = next_arr[j - 1] if pattern[i] == pattern[j]: j += 1 next_arr[i] = j return next_arr ``` 此函数实现了基于当前索引`i`处字符的状态更新逻辑,并最终返回完整的`next[]`数组[^1]。 #### 主串扫描过程 一旦获得了`next[]`数组之后,就可以将其应用于实际的字符串匹配流程当中去了。下面展示了一个标准版本的KMP搜索方法: ```python def kmp_search(text, pattern): n = len(text) m = len(pattern) next_arr = compute_next_array(pattern) matches = [] q = 0 # 当前状态/模式串中的位置 for i in range(n): while q > 0 and text[i] != pattern[q]: q = next_arr[q - 1] if text[i] == pattern[q]: q += 1 if q == m: matches.append(i - m + 1) q = next_arr[m - 1] return matches ``` 这里定义了两个主要变量:一个是代表文本流迭代器的外层循环;另一个则是跟踪模式串进展程度的内部计数器。每当遇到相等项,则推进一步直至完成整个序列或者发现新的冲突为止[^3]。 #### 时间复杂度分析 由于每次失败后的调整都依赖于先前积累的知识而非简单地退回起点,因此理论上讲,最坏情况下的运行时间为O(N),其中N为主串长度。这相比传统的朴素做法具有显著优势,尤其是在面对大量重复数据结构的情况下更是如此[^4]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值