字符串匹配KMP算法

本文详细解析了KMP算法与暴力搜索的区别,重点在于next数组的构建原理和在模式匹配中的应用。通过实例说明如何利用next数组优化查找过程,提升搜索效率。同时,涵盖了next数组的创建步骤和在实际代码中的运用。

KMP算法和暴力搜索的差别在于多了一个next数组。
暴力求解

class Solution:
    def strStr(self, haystack: str, needle: str) -> int:
        for i in range(0,len(haystack)-len(needle)+1):
            flag = True
            for j in range(0,len(needle)):
                if haystack[i+j] != needle[j]:
                    flag = False
                    break
            if j==len(needle)-1 and flag == True:
                return i
        return -1


haystack = "hello"
needle = "ll"
a = Solution().strStr(haystack,needle)
print(a)

KMP算法中最重要的就是next数组,首先我们先说一下next数组的原理。
next数组在创建的时候它只需要看模式串就可以了,就是比如说你要在s串"BBCABCDABABCDABCDABDE"中找一个p串“ABCDABD”。那这个时候我们只需要看p串去创建next数组就可以了。
接下来说明一下next数组的作用是什么,next数组它是指在p中某个元素之前前缀和后缀相同的个数是几个,比如说在ABCDABD中的AB,就是在最后一个D之前有两个元素一样,那在最后一个B之前就有1一个元素是一样的。
接下来说明一下怎么去构建这个数组。
步骤:
1、创建一个跟模式串p一样长的数组。
2、将第一个值赋值为-1,这个赋值为-1的原因是不从第一个数开始比,
3、创建两个指针向量,分别指向主串和模式串,在创建next数组的过程就相当于在模式串里找模式串自己一样,但是不用完整,只是找从头开始的子串。
4、然后去一个一个比,如果两个字符相同就去比下一个,如果两个字符不相同,就把j=next【j】,大家可以好好理解一下这里为什么是这样做,因为要到这一步了说明匹配不上了,然后就在子串里看前缀和当前后缀的关系。

def Cnext(str):
    n = [0 for i in range(len(str))]
    n[0] = -1
    i = 1
    j=-1
    while(i<len(str)-1):
        if j==-1 or str[i] == str[j]:   #为什么j的初始值是-1而不是0,因为原字符串不与本身比较
            j+=1
            i+=1
            n[i] = j
        else:
            j = n[j]
    return n

完整代码:

class Solution:
    def strStr(self, haystack: str, needle: str) -> int:
        if needle == "":
            return 0
        def Cnext(str):
            n = [0 for i in range(len(str))]
            n[0] = -1
            i = 1
            j=-1
            while(i<len(str)-1):
                if j==-1 or str[i] == str[j]:   #为什么j的初始值是-1而不是0,因为原字符串不与本身比较
                    j+=1
                    i+=1
                    n[i] = j
                else:
                    j = n[j]
            return n
        n = Cnext(needle)
        print(n)
        i = 1
        j = -1
        while (i < len(haystack) and j < len(needle)):
            if j == -1 or haystack[i] == needle[j]:  # 为什么j的初始值是-1而不是0,因为原字符串不与本身比较
                j += 1
                i += 1
            else:
                j = n[j]
            if j==len(needle):
                return i-len(needle)




        '''
        for i in range(0,len(haystack)-len(needle)):
            flag = True
            for j in range(0,len(needle)):
                if haystack[i+j] != needle[j]:
                    flag = False
                    break
            if j==len(needle)-1 and flag == True:
                return i
        '''


        return -1
### KMP字符串匹配算法的实现与原理 #### 原理概述 KMP算法的核心在于两个方面:部分匹配表(通常称为`next`数组)的构建以及如何利用这个表格来高效地完成字符串匹配[^1]。 #### 部分匹配表(next数组)的作用及其计算方式 为了提高查找效率,KMP引入了前缀函数的概念,即对于模式串P中的每一个位置i,next[i]代表的是从起始至第i位子串的最大相同真前缀和真后缀长度。当遇到不匹配情况时,可以根据此信息决定跳转到哪个位置继续尝试而不是盲目移动指针回到起点重新开始比较。具体来说,在初始化阶段就要先算好整个模式串对应的next值列表作为后续操作的基础依据[^3]。 #### 匹配流程描述 实际执行过程中,主串S和模式串P各自设有一个游标变量指向当前考察字符处。每当两者对应项一致,则同步前进一位;反之如果发现差异存在但又不是首次访问该节点的话(意味着已经有过至少一轮成功的局部对比),那么就依照预先准备好的next映射关系调整后者所指示的位置直至找到新的候选点或者确认完全失败为止。值得注意的是在整个扫描期间内针对源数据流里的任一成员都只会被检验过一次而已,因此整体性能得以保持在线性级别上运行[^5]。 ```python def compute_next(pattern): m = len(pattern) next_array = [-1] * m k = -1 for q in range(1, m): while k >= 0 and pattern[k + 1] != pattern[q]: k = next_array[k] if pattern[k + 1] == pattern[q]: k += 1 next_array[q] = k return next_array def kmp_search(text, pattern): n, m = len(text), len(pattern) if not text or not pattern or n < m: return -1 next_array = compute_next(pattern) i = j = 0 while i < n: if j == -1 or text[i] == pattern[j]: i += 1 j += 1 if j == m: return i - j else: j = next_array[j] return -1 if j != m else (i - j) if __name__ == "__main__": txt = "ABCDABC" pat = "BCD" index = kmp_search(txt, pat) print(f"Pattern found at index {index}" if index != -1 else "No match found.") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值