KMP算法

最新推荐文章于 2024-11-16 09:45:51 发布

转载最新推荐文章于 2024-11-16 09:45:51 发布 · 197 阅读

javaSE 专栏收录该内容

6 篇文章

订阅专栏

本文深入解析KMP算法，一种高效解决串模式匹配问题的方法。通过对比朴素字符串匹配算法，阐述KMP算法的时间复杂度优势。文章详细介绍next数组的计算原理及其在KMP算法中的作用，同时提供代码实现。

一：背景展开目录

给定一个主串（以 S 代替）和模式串（以 P 代替），要求找出 P 在 S 中出现的位置，此即串的模式匹配问题。

Knuth-Morris-Pratt 算法（简称 KMP）是解决这一问题的常用算法之一，这个算法是由高德纳（Donald Ervin Knuth）和沃恩 · 普拉特在 1974 年构思，同年詹姆斯 ·H· 莫里斯也独立地设计出该算法，最终三人于 1977 年联合发表。

在继续下面的内容之前，有必要在这里介绍下两个概念：真前缀 和 真后缀。

由上图所得， "真前缀" 指除了自身以外，一个字符串的全部头部组合；"真后缀" 指除了自身以外，一个字符串的全部尾部组合。（网上很多博客，应该说是几乎所有的博客，也包括我以前写的，都是 “前缀”。严格来说，“真前缀” 和“前缀”是不同的，既然不同，还是不要混为一谈的好！）

二：朴素字符串匹配算法展开目录

初遇串的模式匹配问题，我们脑海中的第一反应，就是朴素字符串匹配（即所谓的暴力匹配），代码如下：

/* 字符串下标始于 0 */
int NaiveStringSearch(string S, string P)
{
    int i = 0;    // S 的下标
    int j = 0;    // P 的下标
    int s_len = S.size();
    int p_len = P.size();

    while (i < s_len && j < p_len)
    {
        if (S[i] == P[j])  // 若相等，都前进一步
        {
            i++;
            j++;
        }
        else               // 不相等
        {
            i = i - j + 1;
            j = 0;
        }
    }

    if (j == p_len)        // 匹配成功
        return i - j;

    return -1;
}

暴力匹配的时间复杂度为 O(nm)，其中 n 为 S 的长度，m 为 P 的长度。很明显，这样的时间复杂度很难满足我们的需求。

接下来进入正题：时间复杂度为 Θ(n+m) 的 KMP 算法。

三：KMP 字符串匹配算法展开目录

3.1 算法流程展开目录

以下摘自阮一峰的字符串匹配的 KMP 算法，并作稍微修改。

（1）

首先，主串 "BBC ABCDAB ABCDABCDABDE" 的第一个字符与模式串 "ABCDABD" 的第一个字符，进行比较。因为 B 与 A 不匹配，所以模式串后移一位。

（2）

因为 B 与 A 又不匹配，模式串再往后移。

（3）

就这样，直到主串有一个字符，与模式串的第一个字符相同为止。

（4）

接着比较主串和模式串的下一个字符，还是相同。

（5）

直到主串有一个字符，与模式串对应的字符不相同为止。

（6）

这时，最自然的反应是，将模式串整个后移一位，再从头逐个比较。这样做虽然可行，但是效率很差，因为你要把 "搜索位置" 移到已经比较过的位置，重比一遍。

（7）

一个基本事实是，当空格与 D 不匹配时，你其实是已经知道前面六个字符是 "ABCDAB"。KMP 算法的想法是，设法利用这个已知信息，不要把 "搜索位置" 移回已经比较过的位置，而是继续把它向后移，这样就提高了效率。

（8）

i	0	1	2	3	4	5	6	7
模式串	A	B	C	D	A	B	D	'\0'
next[i]	-1	0	0	0	0	1	2	0

怎么做到这一点呢？可以针对模式串，设置一个跳转数组int next[]，这个数组是怎么计算出来的，后面再介绍，这里只要会用就可以了。

（9）

已知空格与 D 不匹配时，前面六个字符 "ABCDAB" 是匹配的。根据跳转数组可知，不匹配处 D 的 next 值为 2，因此接下来从模式串下标为 2 的位置开始匹配。

（10）

因为空格与Ｃ不匹配，C 处的 next 值为 0，因此接下来模式串从下标为 0 处开始匹配。

（11）

因为空格与 A 不匹配，此处 next 值为 - 1，表示模式串的第一个字符就不匹配，那么直接往后移一位。

（12）

逐位比较，直到发现 C 与 D 不匹配。于是，下一步从下标为 2 的地方开始匹配。

（13）

逐位比较，直到模式串的最后一位，发现完全匹配，于是搜索完成。

3.2 next 数组是如何求出的展开目录

next 数组的求解基于 “真前缀” 和“真后缀”，即next[i]等于P[0]...P[i - 1]最长的相同真前后缀的长度（请暂时忽视 i 等于 0 时的情况，下面会有解释）。我们依旧以上述的表格为例，为了方便阅读，我复制在下方了。

i	0	1	2	3	4	5	6	7
模式串	A	B	C	D	A	B	D	'\0'
next[i]	-1	0	0	0	0	1	2	0

i = 0，对于模式串的首字符，我们统一为next[0] = -1；
i = 1，前面的字符串为A，其最长相同真前后缀长度为 0，即next[1] = 0；
i = 2，前面的字符串为AB，其最长相同真前后缀长度为 0，即next[2] = 0；
i = 3，前面的字符串为ABC，其最长相同真前后缀长度为 0，即next[3] = 0；
i = 4，前面的字符串为ABCD，其最长相同真前后缀长度为 0，即next[4] = 0；
i = 5，前面的字符串为ABCDA，其最长相同真前后缀为A，即next[5] = 1；
i = 6，前面的字符串为ABCDAB，其最长相同真前后缀为AB，即next[6] = 2；
i = 7，前面的字符串为ABCDABD，其最长相同真前后缀长度为 0，即next[7] = 0。

那么，为什么根据最长相同真前后缀的长度就可以实现在不匹配情况下的跳转呢？举个代表性的例子：假如i = 6时不匹配，此时我们是知道其位置前的字符串为ABCDAB，仔细观察这个字符串，首尾都有一个AB，既然在i = 6处的 D 不匹配，我们为何不直接把i = 2处的 C 拿过来继续比较呢，因为都有一个AB啊，而这个AB就是ABCDAB的最长相同真前后缀，其长度 2 正好是跳转的下标位置。

有的读者可能存在疑问，若在i = 5时匹配失败，按照我讲解的思路，此时应该把i = 1处的字符拿过来继续比较，但是这两个位置的字符是一样的啊，都是B，既然一样，拿过来比较不就是无用功了么？其实不是我讲解的有问题，也不是这个算法有问题，而是这个算法还未优化，关于这个问题在下面会详细说明，不过建议读者不要在这里纠结，跳过这个，下面你自然会恍然大悟。

思路如此简单，接下来就是代码实现了，如下：

/* P 为模式串，下标从 0 开始 */
void GetNext(string P, int next[])
{
    int p_len = P.size();
    int i = 0;   // P 的下标
    int j = -1;  
    next[0] = -1;

    while (i < p_len - 1)
    {
        if (j == -1 || P[i] == P[j])
        {
            i++;
            j++;
            next[i] = j;
        }
        else
            j = next[j];
    }
}


import java.util.concurrent.ConcurrentHashMap;

public class KMPNew {
    public static void main(String[] args) {
        String s1 = "ababababc";
        String s2 = "ababcd";
        System.out.println("输出结果："+KMPNew.KMPyouhua(s2,s1));
        ConcurrentHashMap map = new ConcurrentHashMap();
    }

    /**
     *
     * @param ps  从串
     * @param ks  主串
     */
    public static int KMPyouhua(String ps,String ks){

        char[] pss = ps.toCharArray();
        char kss[] = ks.toCharArray();
        int[] next = getNext(ps); //取出其最长匹配前后子串
        //暴力破解
        int i=0,j=0;
        while(i<ks.length()){
            if(kss[i]==pss[j]){
                i++;
                j++;
                //如果两个字符相等就继续走
            }
            else {
                //主要是找到j是从哪里遍历
                //匹配失败进行跳转
              j = next[j];
            }
        }
        if(j==ps.length()){
            return i-j;
        }else {
            return -1;
        }
    }

    //子串的0-j-1的字符与 i~i+j-1位置上的字符完全匹配

    //当p[j]!=T[i] 时子串的j指针下一步移动的位置
    //1.如果j=0时候，左边
    //2.当j=1时候，
    public static int[] getNext(String ps){
        char[] p = ps.toCharArray();
        int[] next  = new int[p.length];//初始化next数组
        next[0] = -1;//初始化为-1 //数组第一位初始化为-1
        int i = 0;
        int j = -1 ; //k是靠左边的 j是靠右边的
        while(i<p.length-1){
            //如果k是-1或者
            if(j==-1||p[i]==p[j]){
                next[++i] = ++j;  //如果这个两个值相等 ，则++j ,++k ,next[i]=k
            }else {
                j= next[j];
            }
        }
        return next;
    }

}

五：KMP 优化展开目录

i	0	1	2	3	4	5	6	7
模式串	A	B	C	D	A	B	D	'\0'
next[i]	-1	0	0	0	0	1	2	0

以 3.2 的表格为例（已复制在上方），若在i = 5时匹配失败，按照 3.2 的代码，此时应该把i = 1处的字符拿过来继续比较，但是这两个位置的字符是一样的，都是B，既然一样，拿过来比较不就是无用功了么？这我在 3.2 已经解释过，之所以会这样是因为 KMP 不够完美。那怎么改写代码就可以解决这个问题呢？很简单。

/* P 为模式串，下标从 0 开始 */
void GetNextval(string P, int nextval[])
{
    int p_len = P.size();
    int i = 0;   // P 的下标
    int j = -1;  
    nextval[0] = -1;

    while (i < p_len - 1)
    {
        if (j == -1 || P[i] == P[j])
        {
            i++;
            j++;
          
            if (P[i] != P[j])
                nextval[i] = j;
            else
                nextval[i] = nextval[j];  // 既然相同就继续往前找真前缀
        }
        else
            j = nextval[j];
    }
}