KMP算法详解

最新推荐文章于 2022-11-17 15:04:32 发布

原创最新推荐文章于 2022-11-17 15:04:32 发布 · 5.7k 阅读

1 ·

CC 4.0 BY-SA版权

KMP 专栏收录该内容

5 篇文章

订阅专栏

本文深入解析KMP算法的思路与代码实现，重点介绍了nxt数组的预处理过程，以及如何通过优化字符串匹配避免回溯，实现O(n+m)的时间复杂度。通过实例代码，详细解读了KMP算法在模式串搜索中的应用。

前言

KMP具体的算法思路在这篇博客中已经提及。

这么多天没看，手打KMP都有点费劲，不过在回想算法思路的过程中，感觉对代码的理解提升了一个层次。下面就按照KMP模板，对代码进行讲解。

代码详解

注释1： nxt数组，nxt[i]表示字符串str前i个字符前缀的最大前缀后缀公共长度。

注释2： 预处理nxt数组是KMP算法的前提。

注释3： k表示j-1的最大前后缀公共长度，也即nxt[j-1]。但是如果j-1的下一次不能成功匹配，也就是str[j]和str[k]不一样，那么k就回溯，这时候的k不再表示nxt[j-1]。这个回溯也是KMP算法的精髓所在，他最大程度上减少字符串回移，保证了KMP的O(n+m)时间复杂度。 j 指向nxt所要处理的模式串。

注释4： 初始化nxt[0]=-1，目的是当k回溯匹配完还找不到最优匹配串时，能够使得k=nxt[0]=-1，这样满足上面的if条件，nxt[j]=0。

注释5： while(j < len)保证处理完整个模式串。

注释6： 包含了两个条件，第一个条件结合注释4理解，当回溯完了还找不到最优匹配时，nxt[j]=0。第二个条件就是字符相同，nxt[j]=nxt[j-1]+1。

注释7： 回溯找最优串，也就是最大的前缀后缀公共长度，结合注释3理解。

注释8： i指向文本串，j指向模式串，res表示文本串中模式串的总数量（不可重叠）。

注释9： 保证处理完整个文本串。

注释10： 同样包含两个条件，条件1表示模式串回溯完了还没找到和文本串匹配的前缀串，那么j++（=0），j指向模式串头部，i向后移动一位。条件2表示a[i]=b[j]，当然继续寻找。

注释11： 回溯，相似于预处理nxt数组时k的回溯，同样是寻找最优的匹配串，也就是最大的前缀后缀公共长度。

注释12： j指针指向了模式串末尾，当然找到了一个和模式串匹配的文本串子串。

代码

int nxt[100010]; //1

int get_nxt(string a)
{
    int len = a.size();
    int k = -1, j = 0; //3
    nxt[0] = -1;       //4
    while (j < len)    //5
    {
        if (k == -1 || a[j] == a[k])
            nxt[++j] = ++k; //6
        else
            k = nxt[k]; //7
    }
}

int KMP(string a, string b)
{
    get_nxt(b); //2
    int lena = a.size(), lenb = b.size();
    int i = 0, j = 0, res = 0; //8
    while (i < lena)           //9
    {
        if (j == -1 || a[i] == b[j])
            ++i, ++j; //10
        else
            j = nxt[j]; //11
        if (j == lenb)  //12
        {
            res++;
            j = 0;
        }
    }
    return res;
}

int main()
{
    string a, b;
    cin >> a >> b;
    cout << KMP(a, b) << endl;
    return 0;
}