kmp求next数组值的方法

本文详细介绍了KMP算法中next和nextval数组的计算方法。通过实例解析next数组如何避免重复比较,提高匹配效率。并对比next与nextval数组,说明nextval如何进一步减少不必要的比较。

。。。。。。。。。网上转载的。。。。。。。。。。

首先看看next数组值的求解方法。
      
例如: 模式串abaabcac     next01122312     nextval       next数组的求解方法是:第一位的next值为0,第二位的next值为1,后面求解每一位的next值时,根据前一位进行比较。首先将前一位与其next值对应的内容进行比较,如果相等,则该位的next值就是前一位的next值加上1;如果不等,向前继续寻找next值对应的内容来与前一位进行比较,直到找到某个位上内容的next值对应的内容与前一位相等为止,则这个位对应的值加上1即为需求的next值;如果找到第一位都没有找到与前一位相等的内容,那么需求的位上的next值即为1
      
看起来很令人费解,利用上面的例子具体运算一遍。
       1.
前两位必定为01
       2.
计算第三位的时候,看第二位bnext值,为1,则把b1对应的a进行比较,不同,则第三位anext的值为1,因为一直比到最前一位,都没有发生比较相同的现象。
       3.
计算第四位的时候,看第三位anext值,为1,则把a1对应的a进行比较,相同,则第四位anext的值为第三位anext值加上1。为2。因为是在第三位实现了其next值对应的值与第三位的值相同。
       4.
计算第五位的时候,看第四位anext值,为2,则把a2对应的b进行比较,不同,则再将b对应的next1对应的a与第四位的a进行比较,相同,则第五位的next值为第二位bnext值加上1,为2。因为是在第二位实现了其next值对应的值与第四位的值相同。
       5.
计算第六位的时候,看第五位bnext值,为2,则把b2对应的b进行比较,相同,则第六位cnext值为第五位bnext值加上1,为3,因为是在第五位实现了其next值对应的值与第五位相同。
       6.
计算第七位的时候,看第六位cnext值,为3,则把c3对应的a进行比较,不同,则再把第3anext1对应的a与第六位c比较,仍然不同,则第七位的next值为1
       7.
计算第八位的时候,看第七位anext值,为1,则把a1对应的a进行比较,相同,则第八位cnext值为第七位anext值加上1,为2,因为是在第七位和实现了其next值对应的值与第七位相同。
      
在计算nextval之前要先弄明白,nextval是为了弥补next函数在某些情况下的缺陷而产生的,例如主串为“aaabaaaab”、模式串为“aaaab”那么,比较的时候就会发生一些浪费的情况:比较到主串以及模式串的第四位时,发现其值并不相等,据我们观察,我们可以直接从主串的第五位开始与模式串进行比较,而事实上,却进行了几次多余的比较。使用nextval可以去除那些不必要的比较次数。
      
nextval数组值有两种方法,一种是不依赖next数组值直接用观察法求得,一种方法是根据next数组值进行推理,两种方法均可使用,视更喜欢哪种方法而定。
      
我们使用例子“aaaab”来考查第一种方法。
       1.
试想,在进行模式匹配的过程中,将模式串“aaaab”与主串进行匹配的时候,如果第一位就没有吻合,即第一位就不是a,那么不用比较了,赶快挪到主串的下一位继续与模式串的第一位进行比较吧,这时,模式串并没有发生偏移,那么,模式串第一位anextval值为0
       2.
如果在匹配过程中,到第二位才发生不匹配现象,那么主串的第一位必定是a,而第二位必定不为a,既然知道第二位一定不为a,那么主串的第一、二两位就没有再进行比较的必要,直接跳到第三位来与模式串的第一位进行比较吧,同样,模式串也没有发生偏移,第二位的nextval值仍然为0
       3.
第三位、第四位类似2的过程,均为0
       4.
如果在匹配过程中,直到第五位才发生不匹配现象,那么主串的第一位到第四位必定为a,并且第五位必定不为b,可是第五位仍然有可能等于a。如果万一第五位为a,那么既然前面四位均为a,所以,只要第六位为b,第一个字符串就匹配成功了。所以,现在的情况下,就是看第五位究竟是不是a了。所以发生了下面的比较: 123456aaaa**aaaabaaaab
      
前面的三个a都不需要进行比较,只要确定主串中不等于b的那个位是否为a,即可以进行如下的比较:如果为a,则继续比较主串后面一位是否为b;如果不为a,则此次比较结束,继续将模式串的第一位去与主串的下一位进行比较。由此看来,在模式串的第五位上,进行的比较偏移了4位(不进行偏移,直接比较下一位为0),故第五位bnextval值为4
      
我们可以利用第一个例子“abaabcac”对这种方法进行验证。
       a
nextval值为0,因为如果主串的第一位不是a,那么没有再比较下去的必要,直接比较主串的第二位是否为a。如果比较到主串的第二位才发生错误,则主串第一位肯定为a,第二位肯定不为b,此时不能直接跳到第三位进行比较,因为第二位还可能是a,所以对主串的第二位再进行一次比较,偏移了1位,故模式串第二位的nextval值为1。以此类推,nextval值分别为:01021302。其中第六位的nextval之所以为3,是因为,如果主串比较到第六位才发生不匹配现象,那么主串的前五位必定为“abaab”且第六位必定不是“c”,但第六位如果为“a”的话,那么我们就可以从模式串的第四位继续比较下去。所以,这次比较为: 1234 5678910 11 12abaab*******abaabcac
      
而不是: 1234 5678910 11 12abaab*******abaabca
      
因为前两位ab已经确定了,所以不需要再进行比较了。所以模式串第六位的nextval值为这次比较的偏移量3
      
再来看求nextval数组值的第二种方法。
模式串abaabcac next01122312nextval01021302
       1.
第一位的nextval值必定为0,第二位如果于第一位相同则为0,如果不同则为1
       2.
第三位的next值为1,那么将第三位和第一位进行比较,均为a,相同,则,第三位的nextval值为0
       3.
第四位的next值为2,那么将第四位和第二位进行比较,不同,则第四位的nextval值为其next值,为2
       4.
第五位的next值为2,那么将第五位和第二位进行比较,相同,第二位的next值为1,则继续将第二位与第一位进行比较,不同,则第五位的nextval值为第二位的next值,为1
       5.
第六位的next值为3,那么将第六位和第三位进行比较,不同,则第六位的nextval值为其next值,为3
       6.
第七位的next值为1,那么将第七位和第一位进行比较,相同,则第七位的nextval值为0
       7.
第八位的next值为2,那么将第八位和第二位进行比较,不同,则第八位的nextval值为其next值,为2
      
“aaaab”内进行验证。 模式串aaaabnext01234nextval00004

### KMP算法中next数组方法详解 KMP算法的核心在于减少不必要的字符比较次数,从而提高模式匹配效率。其中的关键之一是`next`数组的构建过程。以下是关于如何计算`next`数组的具体方法。 #### `next`数组的概念 `next[i]`表示模式串中以第`i`个字符结尾的子串的最大相同前后缀长度减一[^1]。换句话说,它是当前字符之前的部分中能够重复利用的信息量。例如,在模式串`ababaaababaa`中: | 下标 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | |------|----|----|----|----|----|----|----|----|----|----|----| | 字符 | a | b | a | b | a | a | a | b | a | b | a | a | | next | -1 | 0 | 0 | 1 | 2 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | #### 计算`next`数组的过程 为了更清晰地说明`next`数组解方式,可以分为以下几个方面进行解释: ##### 初始化 通常情况下,`next[0]=-1`或者`next[0]=0`取决于具体实现需。这里我们采用`next[0]=-1`作为初始条件[^4]。 ##### 遍历模式串并更新`next` 假设已知`next[j-1]`,则可以通过以下逻辑推导出`next[j]`: - 如果模式串中的`P[j]==P[next[j-1]]`,那么可以直接得出`next[j]=next[j-1]+1`。 - 否则需要回溯到`next[next[j-1]]`的位置继续判断,直到满足条件或回到起始位置为止。 下面是基于C语言的一个典型例子来展示该过程[^3]: ```c void getNext(char *p, int *next) { int j = 0; // 主指针指向当前位置 int k = -1; // 辅助指针用于追踪最大公共前后缀结束位置 next[0] = -1; while (p[j] != '\0') { // 循环直至到达字符串末尾 if (k == -1 || p[j] == p[k]) { ++j; ++k; next[j] = k; // 更新next数组 } else { k = next[k]; // 不匹配时回退至合适位置重新尝试匹配 } } } ``` 以上代码片段展示了如何通过双重循环结构逐步填充整个`next`数组得注意的是,当遇到不匹配的情况时,并不会盲目地将索引重置为零,而是借助先前记录下来的数据快速跳转到可能存在的新起点处再次试探是否存在潜在的机会完成进一步扩展操作。 --- #### 实际案例分析 考虑模式串`"ABABCABAA"`: | i/j | A | B | A | B | C | A | B | A | A | |-----|----|----|----|----|----|----|----|----|----| | Next| -1 | 0 | 0 | 1 | 2 | 0 | 1 | 2 | 1 | 从表可以看出每当发生失配现象之后都会依据已有信息迅速定位新的候选区域而非单纯依靠逐一遍历来查找目标项所在之处;如此这般便实现了高效检索的目的。 --- ### 总结 综上所述,通过对`next`数组的理解以及其构造机制的学习可以帮助开发者更好地掌握KMP算法精髓所在——即充分利用历史数据避免冗余运算达到加速效果的目标。同时也可以看出合理运用辅助工具如递归函数或是迭代语句均能有效简化复杂度较高的程序设计难题。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值