KMP算法与传统模式匹配算法的区别
可以说字符串的模式匹配是计算机在进行文档处理时的最基本操作之一,它的时间复杂度对于文档处理十分重要。
传统的模式匹配算法,时间复杂度为O(n*m);
发现不匹配的情况下:
按照传统的算法,把长字符串的起始匹配位置往后移动一个字符,接着判断是否匹配,直到全部匹配完成
KMP算法,把时间复杂度控制在O(m+n);
它利用了之前已匹配过的字符串的性质,采用next数组记录下了最长前缀和最长后缀的长度;
1.next数组求法(也叫作转移数组,记录着j转移的位置,后面会说到)
首先要明确最长前缀和最长后缀的长度;
最长前缀:除了最后一个元素以外,一个字符串的全部头部组合;
最长后缀:除了第一个元素以外,一个字符串的全部尾部组合。
例如ababaca这个字符串:
在第一个字符’a’,最长前缀和后缀不存在,记为-1;next[0]=-1;
第二个字符‘b’,最长前缀和后缀长度为0,记为0;next[1]=0;
第三个字符‘a’,最长前缀和后缀长度为0,记为0;next[2]=0;
第四个字符‘b’,最长前缀为‘a’,最长后缀为‘a’,长度为1,记为1;next[3]=1;
…………
第六个字符‘c’,最长前缀为‘aba’,最长后缀为‘aba’,长度为3,记为3;next[5]=3;
…………
这就建立好了一个next数组,接下来就要用next数组来进行字符串匹配了;
2.str和ptr模式串匹配过程
用下面一张图进行详细说明,这张图摘自http://www.cnblogs.com/c-cloud/p/3224788.html,图片做的一目了然,对于我学习KMP算法帮助很大;
next数组就是说一旦在某处不匹配时(下图绿色位置A和B不匹配),移动ptr字符串,使str的对应的最大后缀(红色2)和ptr对应的最大前缀(红色3)对齐,然后比较A和C。next数组的值,就是j下一次移动后所在的位置,即j=next[j]。比如next中某个字符对应的next值是4,则在该字符后的下一个字符不匹配时,可以直接移动往前移动ptr,j移动到next[j]的位置,即j=4,再次进行比较判别。
![]()
可能会有所疑问,为什么next[j]中就是下一次移动ptr字符串后,j所在的位置呢?
还是拿上图来分析,由于红色1和红色2是最长前缀和最长后缀,本来就是相同的;而ptr和str在i和j之前的字符串都是已经匹配好了,这就说明红色1、红色2、红色3、红色4都是相同的;
此时比较i和j位置上的字符,发现不匹配,此时 j必然要往前回溯;为了避免移动到多余的位置,选择直接移动到next[j]的位置。具体原因是:因为红块2和红块4是完全相同的,然而后面的字符不匹配;此时找到之前的最长前缀红块3,因为红块3和红块2也是相同的,就不需要比较了,直接比较红块3之后的字符’C’和str字符串i位置上的字符’A’是否匹配。如果仍然不匹配,接着将j移动到next[j]的位置,直到找到匹配的字符,或者j回溯到ptr模式串的开头位置为止。
下面我把KMP算法的实现贴在下面
#include <iostream>
#include<vector>
#include<string>
using namespace std;
void calc_next(string &T,vector<int> &next)
{
int i=0,j=-1;
next.push_back(-1);//next[0]=-1;
while(i < T.size()-1)
{
if(j == -1 || T[i] == T[j])
{
++i;
++j;
next.push_back(j);
}
else
{
j=next[j];
}
}
}
int KMP(string &S,string& T,vector<int> &next,vector<int>& pos)
{
calc_next(T,next);
int i=0;
int j=0;
while(i< (int)S.size())
{
while(i < (int)S.size()&& j< (int)T.size())
{
if(j==-1 || S[i] == T[j])
{
++i;
++j;
}
else
{
j=next[j];//j回溯到next[j]的位置,再次开始比较,直到next[j]==-1时为止;
/*其实是j=j-(j-next[j]);
next数组中存放的是:当失配时,最大公共前缀和后缀的长度,
eg:ABCDABD;当第七个D失配时,之前的最大公共子串长度为2;
而需要移动位数 = 已匹配的字符数 - 对应的部分匹配值;
已匹配的字符数就是j的位置;
部分匹配值就是next[j];
移动位数=j-next[j]
用j当前的位置 减去 需要移动的位数 等于 j下次回溯的位置
*/
}
}
if(j == T.size())
{
pos.push_back(i-T.size());
i=i-T.size()+1;
j=0;
}
}
}
int main()
{
string S("acbababadababaababacacaddababacasdsd");
string T("ababaca");
vector<int> next;
vector<int> pos;
KMP(S,T,next,pos);
for(int i=0; i<pos.size(); ++i)
{
cout<<pos[i]<<endl;//pos中存放的是已匹配字符串的位置,可能有多个
}
return 0;
}
本文参考了:
http://www.cnblogs.com/c-cloud/p/3224788.html
http://blog.youkuaiyun.com/starstar1992/article/details/54913261
他们对KMP算法的理解对于我对KMP算法的学习有很大帮助,非常感谢!
关于博客中的内容和代码,如有错误,欢迎斧正!