KMP算法

最新推荐文章于 2023-01-23 18:57:44 发布

转载最新推荐文章于 2023-01-23 18:57:44 发布 · 588 阅读

文章标签：

#算法 #system

数据结构与算法专栏收录该内容

2 篇文章

订阅专栏

本文深入讲解KMP算法，包括其背景、如何避免模式匹配中的回溯问题，以及next数组的计算方法。通过实例代码展示了传统匹配算法与KMP算法的区别。

KMP 匹配算法是由 "Knuth Morris Pratt" 提出的一种快速的模式匹配算法。

hint：不为自身的最大首尾重复子串长度

1.待解决的问题：假设P为给定的子串，T是待查找的字符串，要求从T中找出与P相同的所有子串，这称为模式匹配问题。 (可以给出子串在T中的位置) (下文中提到的P和T分别为子串和目标串)

让我们先来看个例题：

T: t0 t1 t2 t3 .... tm-1 ... tn-1

P: p0 p1 p2 p3 .....pm-1

从T的最左边开始比较，使得 TK = PK，则匹配成功。

2.解决模式匹配问题的方案：

A：朴素的模式匹配算法(思路简单,但不够简便，时间长，有回溯)：最简单和最直接的做法，用P中的字符依次与T中的字符进行比较，遇到不相等的字符，则可将P右移一个字符，重新进行比较，直到某次匹配成功或者到达P的最右字符移出T为止。

如：若P="aaaba", T="aaabbaaaba", 则匹配过程如下图

T: a a a b b a a a b a

P: a a a b a

a a a b a

.....

a a a b a

从上不难分析，最坏的情况是“每次比较都在最后一个字符出现不等，每趟最多比较M次，最多比较N-M+1趟，总的比较次数最多为M*(N-M+1)” ，时间复杂性为0(M*N)。在P右移一位时，不管上一趟比较的中间结果是什么，因此回溯是不可避免的(如：前3个aaa 不需要一位一位的移 ) 。下面我来介绍无回溯的KMP算法。

3.KMP算法解决匹配中哪些主要问题：

A.当字符串比较出现不等时，确定下一趟比较前，应该将P右移多少个字符；

B. P右移后，应该从哪个字符开始和T中刚才比较时不等的那个字符继续开始比较。

我们通过朴素模式匹配的例子来引出问题。在第一次比较过程中失败的是P的第4个字符b，这表明P的前4个字符是成功的。模式P的第3个字符b在它的前3个字符(aaa)中并未出现。因此，在下一次比较时候，至少要将P向后移4个字符；再看P的第一个字符与最后一个字符是相同的，因此将P右移4个字符后，再从第一个字符比较，肯定也是不等的。综上所诉：应该将P右移5个字符，再从P的第0个字符和T的第5个字符开始比较！

KMP算法核心：KMP算法借助于一个辅助数组next来确定当匹配过程中出现不等时，模式P右移的位置和开始比较的位置。next[i]的取值只与模式P本身的前i+1项有关，而与目标T无关。匹配过程中遇到Pi不等于Tj时，若next[i]>=0，则应将P右移i-next[i]位个字符，用P中的第next[i]个字符与Tj 进行比较；若：next[i]= -1，P中的任何字符都不必再与Tj比较，而应将P右移i+1个字符，从P0和Tj+1从新开始下一轮比较(可能不太好理解，自己找个例子，对着话一句一句试试看)

因此只要计算出与模式P相关的next数组，按上面的含义，就可以很容易地给出串的匹配算法。(问题就这样转化了)

C.next的计算：以P = " 01001010100001"为例。

i : 0 1 2 3 4 5 6 .....

P : 0 1 0 0 1 0 1 .....

j(next[i]) : -1 0 0 1 1 2 3 .....

如1：我们要算next[2]的值,有关的为P本身的前2个字符0,1。在字符串01中，寻找出“左右相同的最大字符串，此字符串所含字符的个数就为next[i]的值”而0不等于1，相同字符串不存在，所以next[i] = 0；

如2：我们要算next[6]的值，有关的为P本身前6个字符010010 。此字符串中010 = 010左右相同的最大字符串为010，个数为3。所以next[i]=3；

如3：我们要算next[5]的值，有关的为P本身前5个字符01001。此字符串中 01=01 左右相同的最大字符串为01，个数为2。所以next[i]=2；

实例：

#include <cstdlib>
#include <cstring>
#include <iostream>
using namespace std;
const int N = 50;
int next[N];
int index(char *src,char *des,int pos);
int KMP(char *S,char *T);
void getNext(char T[]);
int main(int argc, char *argv[])
{
    char *src = "0101010100101010101111101022";
    char *des = "0101010111111"; 
    cout<<"一般算法匹配位置："<<index(src,des,0)<<endl;
    getNext(des);
    cout<<"KMP算法匹配位置："<<KMP(src,des)<<endl; 
  
    system("pause");
    return 0;
}

//一般匹配方法，缺点比较次数多，效率低 
int index(char *src,char *des,int pos){
    static int count=0;
    int slen=strlen(src);    
    int dlen=strlen(des);
    int i=pos;
    int j=0;
    while(i<slen&&j<dlen)
    {
        if(*(src+i)==*(des+j))
        {
            i++;
            j++;
            count++;
        } 
        else
        {
            i=i-j+1;
            j=0;
            count++;          
        }
    }
    cout<<"普通算法比较次数："<<count<<endl;
    if(j==dlen){ 
        return i-dlen+1;
    }
    else{
        return -1;
    }
}

/*
KMP算法：效率快，比较次数较少
S:010001000111101,原字符串 
i:          0 1 2 3 4 5 6 7 8 9 字符位置 
T:          0 1 0 0 1 0 1 0 0 1 需要匹配的字符
j(next[i]):-1 0 0 1 1 2 3 3 3 4
原理：利用辅助数组next来保存当字符不匹配时
需要移动的字符个数，计算方法为，比较T中的前i-1个字符
字符串相等的最大数目即为next[i]的值 
*/ 

int KMP(char *S,char *T)
{
    static int cou=0;
    int i=0;
    int j=0;
    int slen=strlen(S);
    int tlen=strlen(T);
    while(i<slen&&j<tlen)
    {
        if(j==-1||*(S+i)==*(T+j))
        {
            i++;
            j++;
            cou++;
        } 
        else
        {
            j=next[j];
            cou++;          
        }
    }
    cout<<"KMP算法比较次数："<<cou<<endl;
    if(j==tlen){ 
        return i-tlen+1;
    }
    else{
        return -1;
    }
    
} 

//取得T的next数组 
void getNext(char *T)
{
     int len=strlen(T);
     //初始化数组 
     memset(next,0,sizeof(next));
     next[0]=-1;
     int i=-1;
     int j=0;
     while(j<len)
     {
         if(i==-1||*(T+i)==*(T+j))
         {
          i++;
          j++;
          if(*(T+i)!=*(T+j))//修正
           {
            next[j]=i; 
           }
          else
           {
             next[j]=next[i];
           }
         } 
         else
         {
         i=next[i];
         }
      
     }
     for(int i=0;i<len;i++){
            cout<<next[i]<<" ";
    }

     
}

转载：http://www.cppblog.com/suiaiguo/archive/2009/07/16/90237.html