kmp

kmp算法笔记

一般匹配字符串时,我们从目标字符串str(假设长度为n)的第一个下标选取和ptr长度(长度为m)一样的子字符串进行比较,如果一样,就返回开始处的下标值,不一样,选取str下一个下标,同样选取长度为n的字符串进行比较,直到str的末尾(实际比较时,下标移动到n-m)。这样的时间复杂度是O(n*m)。
ababaca
这里我们要计算一个长度为m的转移函数next。

next数组的含义就是一个固定字符串的最长前缀和最长后缀相同的长度。

比如:abcjkdabc,那么这个数组的最长前缀和最长后缀相同必然是abc。
cbcbc,最长前缀和最长后缀相同是cbc。
abcbc,最长前缀和最长后缀相同是不存在的。

注意最长前缀:是说以第一个字符开始,但是不包含最后一个字符。
比如aaaa相同的最长前缀和最长后缀是aaa。

对于目标字符串ptr,ababaca,长度是7,所以next[0],next[1],next[2],next[3],next[4],next[5],next[6]分别计算的是
a,ab,aba,abab,ababa,ababac,ababaca的相同的最长前缀和最长后缀的长度。由于a,ab,aba,abab,ababa,ababac,ababaca的相同的最长前缀和最长后缀是“”,“”,“a”,“ab”,“aba”,“”,“a”,所以next数组的值是[-1,-1,0,1,2,-1,0],这里-1表示不存在,0表示存在长度为1,2表示存在长度为3。这是为了和代码相对应。
KMP算法:可以实现复杂度为O(m+n)

题目来源

ac代码:kmp模板体

#include<cstdio>
#include<iostream>
#include<algorithm>
#include<cstring>

using namespace std;
int a[1000000];
int b[10000];
int next1[10000];
void get_next(int m)
{
    int k=-1;
    next1[0]=-1;
    for(int i=1;i<m;i++)
    {
        while(k>-1 && b[k+1]!=b[i])
            k=next1[k];
        if(b[k+1]==b[i])
            k=k+1;
        next1[i]=k;
    }
}
int  fang(int n,int m)
{
    get_next(m);
    int k=-1;
    for(int i=0;i<n;i++)
    {
        while(k>-1 && b[k+1]!=a[i])
        {
            k=next1[k];
        }
        if(a[i]==b[k+1])
            k=k+1;
        if(k==m-1)
            return i-m+2;
    }
    return -1;
}
int main()
{
   int t;int n,m;
   cin>>t;
   while(t--)
   {
       cin>>n>>m;
       for(int i=0;i<n;i++)
       {
           cin>>a[i];
       }
       for(int i=0;i<m;i++)
       {
           cin>>b[i];
       }
       int ans=fang(n,m);
       cout<<ans<<endl;
   }
}

我们这里说的KMP不是拿来放电影的(虽然我很喜欢这个软件),而是一种算法。KMP算法是拿来处理字符串匹配的。换句话说,给你两个字符串,你需要回答,B串是否是A串的子串(A串是否包含B串)。比如,字符串A="I'm matrix67",字符串B="matrix",我们就说B是A的子串。你可以委婉地问你的MM:“假如你要向你喜欢的人表白的话,我的名字是你的告白语中的子串吗?” 解决这类问题,通常我们的方法是枚举从A串的什么位置起开始与B匹配,然后验证是否匹配。假如A串长度为n,B串长度为m,那么这种方法的复杂度是O (mn)的。虽然很多时候复杂度达不到mn(验证时只看头一两个字母就发现不匹配了),但我们有许多“最坏情况”,比如,A= "aaaaaaaaaaaaaaaaaaaaaaaaaab",B="aaaaaaaab"。我们将介绍的是一种最坏情况下O(n)的算法(这里假设 m<=n),即传说中的KMP算法。 之所以叫做KMP,是因为这个算法是由Knuth、Morris、Pratt三个提出来的,取了这三个人的名字的头一个字母。这时,或许你突然明白了AVL 树为什么叫AVL,或者Bellman-Ford为什么中间是一杠不是一个点。有时一个东西有七八个人研究过,那怎么命名呢?通常这个东西干脆就不用人名字命名了,免得发生争议,比如“3x+1问题”。扯远了。 个人认为KMP是最没有必要讲的东西,因为这个东西网上能找到很多资料。但网上的讲法基本上都涉及到“移动(shift)”、“Next函数”等概念,这非常容易产生误解(至少一年半前我看这些资料学习KMP时就没搞清楚)。在这里,我换一种方法来解释KMP算法。
03-08
### KMP算法简介 KMP算法是一种高效的字符串匹配算法,能够通过计算模式字符串的部分匹配表(PMT),在匹配过程中利用已匹配的信息,避免不必要的重复比较,提高匹配效率[^2]。 核心思想在于当发生不匹配时,不是简单地移动模式串的一个位置重新开始比较,而是根据已经部分匹配的结果调整模式串的位置,使得尽可能多的有效信息得以保留并继续使用。这种优化减少了大量冗余操作,使时间复杂度达到了线性的O(m+n),其中m为目标串S的长度,n为模式串P的长度[^3]。 ### 部分匹配表(Partial Match Table, PMT) 为了实现上述功能,KMP算法构建了一个称为“部分匹配表”的辅助数组next[]。对于给定的模式串`pattern`,其对应的next[i]表示的是从模式串起始到第i位为止子串的最大前后缀公共长度。这里定义前缀是指除了整个字符串本身以外位于开头连续若干字符组成的序列;而相应地,后缀则是除掉最后一个字符外结尾处相连的一些字母构成的片段[^1]。 具体来说,在遇到失配情况时,可以根据当前失配位置之前的最长相等真前缀和真后缀来决定下一步如何滑动模式串,而不是盲目回退至最初始状态再逐一尝试可能存在的匹配起点[^4]。 ### Python代码示例 下面给出一段Python版本的KMP算法实现: ```python def build_next(pattern): """ 构建模式串 pattern 的 next 数组 """ n = len(pattern) next_array = [0] * n j = 0 for i in range(1, n): while j > 0 and pattern[j] != pattern[i]: j = next_array[j - 1] if pattern[j] == pattern[i]: j += 1 next_array[i] = j return next_array def kmp_search(text, pattern): """ 使用 KMP 算法查找 text 中是否存在 pattern 及首次出现的位置 """ m, n = len(text), len(pattern) # 获取模式串对应 next 数组 next_array = build_next(pattern) matched_index = [] j = 0 for i in range(m): while j > 0 and text[i] != pattern[j]: j = next_array[j - 1] if text[i] == pattern[j]: j += 1 if j == n: matched_index.append(i - n + 1) j = next_array[j - 1] return matched_index or None ``` 此段程序首先定义了两个函数:一个是用于创建模式串`pattern`的`next`数组的方法`build_next()`;另一个是实际执行搜索工作的方法`kmp_search()`。前者接收一个字符串作为输入参数,并返回相应的`next`列表;后者接受待检索文本`text`与模式串`pattern`作为参数,最终输出所有找到的目标串索引或None表示未发现任何实例。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值