Knuth-Morris-Pratt Algorithm

本文深入讲解KMP算法,探讨其高效精确匹配原理,通过预处理避免重复计算,介绍前缀函数与fail数组构造,提供详细代码实现。

  Today , 第一次学习KMP Algorithm,其中好多地方还是不能理解的透彻,本文将进一步对 KMP Algorithm 进行学习,搞清楚其中的思想……

  First , KMP Algorithm is best known for liner time for exact matching ,  (Runing time is O(Length(S)+Lendth(P)))  Because Preprocessing is O(P) , Matching is O(Length(S)) , 效率很 high , 成功的避免了Recomputing Matches ;

    若想 Avoid Recomputing Matches , 就需要 Preprocessing ,对于 Preprocessing ,就是找出字符串P中的 Repeat char can backtrack position by prefix-function;

字符串P为:

ababaca

 

 

 

字符串S为:

bacbabababacaab

 

 

  定义两个指针 i 和 j ,i  是指向 字符串 S 中的第 i 个数据元素 , j 是指向字符串 P 中的第 j 个数据元素 ,用指针 i 和  j 分别表示 S[ i - j + 1 , …… i ] 和 P[ 1 , …… j ] 中的数据元素完全相等, 随着 i 的值不断增加 , j 的值也在不断变化 ,通过对字符串 P 进行 Preprocessing 得到 fail数组 ,j 的值变化有两种可能:1、如果 P[ j + 1 ] 与 S[ i + 1]相等,j 应该加 1 ; 2 、如果 P[ j + 1 ] 与 S[ i + 1 ] 不相等 ,则 j 应该等于 fail数组中第 j 个数据元素的值 ;fail数组就是用来记录 当P[i + 1] 与 S[ j + 1 ] 不相等时 , j 的变化 ;

 

下面介绍一下,Prefix - function ,即如何确定fail 数组 ;

m ← Length[ P ] ;

k = 0 ;

fail[0] ← 0 ;

for q ← 1 to m  do

  while k > 0 and p[k] ≠ p[q]  do

    k = next[k-1] ;

  end while 

  if(p[k] = p[q] )

    k ← k + 1 ;

  end if

  next[q] = k ;

end for

 

 

这样即可得到 fail数组 ;   

 

得到 fail 数组之后,就可进行字符串P 与 字符串S 进行匹配了 ,具体匹配过程,下面给出相应的伪代码:

n ← Length[ S ] 

m ← Length[ P ]

k = 0 ;

for i ← 0 to n  do 

  while k > 0 and p[ k ] ≠  S[ i ]  do

    k = fail[ k -1] ;

  end while

  if p[k] = S[i]  then

    k ← k + 1

  end if

  if k == m then  

    return i - m + 1

  end if

end for 

return  -1 

 

 

 下面给出KMP算法的详细代码过程:

#include<iostream>
#include<string.h>
using namespace std ;

int fail[1000] ;

void prefix( char *p )	{
	int len = strlen(p) ;
	int k = 0 ; 
	fail[0] = 0 ;
	for( int q = 1 ; q < len ; q++)	{
		while( k > 0 && p[k] != p[q] )   // K > 0 的原因是为了让后面的 s[q] 先和 s[0] 比较保证找到后面的能够出现和第一个相等 ; 
			k = fail[k-1] ;
		if(p[k] == p[q])
			k++ ;
		fail[q] = k ;
	}
}

int kmp( char *s , char *p )	{
	int len1 = strlen(s) , len2 = strlen(p) ;
	int k = 0 ;
	for(int q = 0 ; q < len1 ; q++ )	{
		while( k > 0 && s[q] != p[k] )  // K > 0 为了保证后面的和第一个比较出现相等的 ;
			k = fail[k-1] ;
		if(s[q] == p[k])
			k++ ;
		if(k == len2)
			return q - len2 + 1 ;
	}
	return -1 ;
}

int main()	{
	char s[1000] , p[1000] ;
	cin >> s >> p ;
	prefix(p) ;
	if(kmp(s,p) != -1)
		cout << kmp(s,p) << endl ;
	else
		cout << "NO" << endl ;
	return 0 ;
}

  

 

 

 

      

转载于:https://www.cnblogs.com/NYNU-ACM/p/4237469.html

<think>我们正在计算模式串"ababa"的Partial Match Table(PMT),也称为失配函数或next数组。 PMT的定义:对于模式串P[0..m-1],PMT[i]表示子串P[0..i]的最长相等真前缀和真后缀的长度(不包括整个子串)。 注意:真前缀和真后缀是指不包含整个字符串的前缀和后缀。 步骤: 1. 初始化:PMT[0] = 0,因为单个字符没有真前缀和真后缀。 2. 从i=1开始,计算每个位置i的PMT值。 模式串:a b a b a 位置0: P[0] = 'a' PMT[0] = 0 [因为只有一个字符] 位置1: P[0..1] = "ab" 真前缀:["a"] 真后缀:["b"] 没有相等的,所以PMT[1]=0 位置2: P[0..2] = "aba" 真前缀:["a", "ab"] 真后缀:["a", "ba"] 相等的最长真前缀和真后缀是"a",长度为1,所以PMT[2]=1 位置3: P[0..3] = "abab" 真前缀:["a", "ab", "aba"] 真后缀:["b", "ab", "bab"] 相等的最长真前缀和真后缀是"ab",长度为2,所以PMT[3]=2 位置4: P[0..4] = "ababa" 真前缀:["a", "ab", "aba", "abab"] 真后缀:["a", "ba", "aba", "baba"] 相等的最长真前缀和真后缀有:"a"(长度1)和"aba"(长度3),取最长的3,所以PMT[4]=3 但是,我们通常要求真前缀和真后缀不能是整个字符串,这里"aba"作为真后缀时,它并不等于整个字符串(整个字符串是"ababa"),所以是允许的。 然而,我们检查一下: 真前缀:P[0..2] = "aba" (索引0到2) 真后缀:P[2..4] = "aba" (索引2到4) -> 注意:这个真后缀是从索引2到4,长度为3。 因此,PMT[4]=3。 但是,我们也可以使用递推的方法(利用已经计算出的PMT值)来计算,这样更高效。 递推方法: 设i=0时,PMT[0]=0。 令j=0(表示当前匹配的前缀长度),i从1到m-1(m为模式串长度): while j>0 and P[i] != P[j]: j = PMT[j-1] # 回退到前一个匹配位置 if P[i] == P[j]: j += 1 PMT[i] = j 按照递推方法计算: 初始化:PMT[0]=0, j=0, i=1 i=1: P[1]='b', P[j]=P[0]='a' -> 不相等,且j=0,所以不进入while循环,然后比较不相等,所以PMT[1]=0,j保持0。 i=2: P[2]='a', P[j]=P[0]='a' -> 相等,则j增加1,变为1,然后PMT[2]=j=1。 i=3: P[3]='b', P[j]=P[1]='b' -> 相等,则j增加1,变为2,然后PMT[3]=2。 i=4: P[4]='a', P[j]=P[2]='a' -> 相等,则j增加1,变为3,然后PMT[4]=3。 所以,递推方法得到的结果是:[0,0,1,2,3] 因此,模式串"ababa"的Partial Match Table为:[0,0,1,2,3] 注意:有时候next数组的定义会稍微不同,比如有些实现中会将整个PMT数组向右移动一位,并将next[0]设为-1,但这里我们计算的是标准的PMT。 所以,答案是:[0,0,1,2,3]</think>### KMP算法中模式串"ababa"的Partial Match Table计算 Partial Match Table(PMT)是KMP算法的核心组件,用于在匹配失败时确定模式串的滑动距离。PMT的值表示模式串前缀与后缀的最长匹配长度(不包括整个子串)。以下是模式串$P = \text{"ababa"}$的计算过程: #### 计算步骤: 1. **$i=0$**(子串"a") - 真前缀:空集 - 真后缀:空集 - 最长匹配长度:$0$ $\text{PMT}[0] = 0$ 2. **$i=1$**(子串"ab") - 真前缀:$["a"]$ - 真后缀:$["b"]$ - 无相同前后缀 $\text{PMT}[1] = 0$ 3. **$i=2$**(子串"aba") - 真前缀:$["a", "ab"]$ - 真后缀:$["a", "ba"]$ - 最长匹配:"a"(长度$1$) $\text{PMT}[2] = 1$ 4. **$i=3$**(子串"abab") - 真前缀:$["a", "ab", "aba"]$ - 真后缀:$["b", "ab", "bab"]$ - 最长匹配:"ab"(长度$2$) $\text{PMT}[3] = 2$ 5. **$i=4$**(子串"ababa") - 真前缀:$["a", "ab", "aba", "abab"]$ - 真后缀:$["a", "ba", "aba", "baba"]$ - 最长匹配:"aba"(长度$3$) $\text{PMT}[4] = 3$ #### 最终结果: 模式串$\text{"ababa"}$的PMT为: $$[0, 0, 1, 2, 3]$$ #### 递推公式验证(高效算法): ```python def compute_pmt(pattern): pmt = [0] * len(pattern) j = 0 # 最长匹配前缀的指针 for i in range(1, len(pattern)): while j > 0 and pattern[i] != pattern[j]: j = pmt[j-1] # 回退到前一个匹配位置 if pattern[i] == pattern[j]: j += 1 pmt[i] = j return pmt print(compute_pmt("ababa")) # 输出: [0, 0, 1, 2, 3] ``` 此算法通过动态规划复用已计算的PMT值,时间复杂度为$O(m)$($m$为模式串长度)[^1]。 --- ### 相关问题 1. KMP算法中PMT的作用是什么?如何利用它优化字符串匹配? 2. 对于模式串$\text{"aabaaab"}$,如何计算其Partial Match Table? 3. KMP算法与朴素字符串匹配算法的时间复杂度有何区别? 4. 在PMT计算过程中,为什么要求匹配的前后缀必须是真子串(即不能是完整子串)? [^1]: 基于KMP算法的经典实现,参考《算法导论》字符串匹配章节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值