KMP

本文详细介绍了KMP算法计算next值和nextVal值的过程,包括maxL的计算、next数组的获取,以及KMP算法的实现,特别强调了从0开始计算的推荐做法,并探讨了在文本串中查找模式串的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

目录

KMP算法计算next值和nextVal值

maxL

maxL 计算过程

0.初始化

1.str[i] == str[j]

2.str[i] != str[j]

代码

由maxL数组得到next数组

下标从0开始求maxL

next

从1开始求next(直接求)

KMS FROM 1

推荐从0开始

next 0

kmp 0

kmp实现查找最长模式串前缀

nextVal

 


KMP算法计算next值和nextVal值

给定一个主串S及一个模式串P,判断模式串是否为主串的子串;若是,返回匹配的第一个元素的位置(序号从1开始),否则返回0;

这里先不写算法,仅仅计算next和nextVal值

那么计算时只用到子串,也就是模式串

这里模式串为:abaabcac

第一步将模式串写上序号,我们这里从1开始(有的从0开始,写代码推荐从 0开始,少一些操作

maxL

列出从第一个开始的子串,找出相等的前缀和后缀的个数

maxL 计算过程

maxL[i] = k  表示,以 i位置结尾的 最长前后缀 长度。

一般来说 : j 是前缀的结尾, i 是后缀的结尾。

前缀 = = 后缀,  且前缀 长度要 小于  (严格小于 1~i-1

注意 : 以下 图中 next 应为   maxL

 

0.初始化

下标从 1 开始, maxL[1] = 0; j = 1, i = 2;

1.str[i] == str[j]

若 str[i] == str[j] ,  则maxL[i] = j; j++; i++ ; 

maxL[i] = j 的解释 : 由于maxL保存的以i位置结尾的最长前后缀 长度。 当str[i] == str[j] 时。

i 指向后缀的最后一个, j 指向前缀的的最后一个。由于下标从 1 开始。

所以 j 就是前缀的长度。恰好应该赋值给maxL[i]

2.str[i] != str[j]

1. j 可以回退(j > 1)

2.j == 1, j 不能回退。则 maxL[i] = 0, 必然为 0. 

解释: 当 str[i] == str[j] 时, j.i是 增长的 最大前后缀  的 末尾元素。

但是当 str[i] != str[j] 时, j,i 分别是 最大前后缀 的末尾元素 的 再后一个元素。

由于此时  j == 1 .j之前必然没有前缀了。所以maxL[i] = 0; 表示 没有 以 i 结尾的 后缀。

代码

public  void getmaxL(String subStr, int[] maxL){
        // 下标从 1开始。
        subStr = " "+subStr; // 第 0 位 为 ' '  空格
        int j = 1, i = 2;
        maxL[1] = 0;
        while(i < maxL.length){
            // 每轮开始, i ,j 一定指向最大前后缀最后一个元素的 后 一个
            if(subStr.charAt(j) == subStr.charAt(i)){
                maxL[i] = j;  //  j == maxL[i-1] + 1; 当 连续递增时。
                i
我们这里说的KMP不是拿来放电影的(虽然我很喜欢这个软件),而是一种算法。KMP算法是拿来处理字符串匹配的。换句话说,给你两个字符串,你需要回答,B串是否是A串的子串(A串是否包含B串)。比如,字符串A="I'm matrix67",字符串B="matrix",我们就说B是A的子串。你可以委婉地问你的MM:“假如你要向你喜欢的人表白的话,我的名字是你的告白语中的子串吗?” 解决这类问题,通常我们的方法是枚举从A串的什么位置起开始与B匹配,然后验证是否匹配。假如A串长度为n,B串长度为m,那么这种方法的复杂度是O (mn)的。虽然很多时候复杂度达不到mn(验证时只看头一两个字母就发现不匹配了),但我们有许多“最坏情况”,比如,A= "aaaaaaaaaaaaaaaaaaaaaaaaaab",B="aaaaaaaab"。我们将介绍的是一种最坏情况下O(n)的算法(这里假设 m<=n),即传说中的KMP算法。 之所以叫做KMP,是因为这个算法是由Knuth、Morris、Pratt三个提出来的,取了这三个人的名字的头一个字母。这时,或许你突然明白了AVL 树为什么叫AVL,或者Bellman-Ford为什么中间是一杠不是一个点。有时一个东西有七八个人研究过,那怎么命名呢?通常这个东西干脆就不用人名字命名了,免得发生争议,比如“3x+1问题”。扯远了。 个人认为KMP是最没有必要讲的东西,因为这个东西网上能找到很多资料。但网上的讲法基本上都涉及到“移动(shift)”、“Next函数”等概念,这非常容易产生误解(至少一年半前我看这些资料学习KMP时就没搞清楚)。在这里,我换一种方法来解释KMP算法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值