字符串匹配——KMP算法(模板)

本文详细介绍了KMP算法的工作原理及应用,包括next数组的计算方法及其意义,并提供了字符串匹配的具体实现示例,如判断子串是否存在、计算子串出现次数及首次出现的位置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

KMP算法的原理具体请看以下博客:
从头到尾彻底理解KMP(2014年8月22日版)(其中有关于BM算法和Sunday算法的介绍)
KMP算法最浅显理解——一看就明白
转自知乎-我见过最通俗易懂的KMP算法详解
kmp算法介绍
KMP模版 && KMP求子串在主串出现的次数模版

next数组的求法:先将next数组初始化为0,将子串和自己进行匹配,第一个不进行匹配(next[0]=-1),从第二个开始进行匹配,即从下标为1进行匹配,将其与自己从头到尾进行匹配,(即zi[1]和zi[0]匹配),若不一样则next[1+1]=0 (然后下一个zi[2]重新和zi[0]匹配),若一样则next[1+1]=1(然后下一个zi[2]和zi[1]匹配,一样就next[2+1]=2(下一个也一样就next[3+1]=3),不一样就next[2+1]=0(然后zi[2]回去和zi[0]匹配),按此规律循环下去。

next 数组各值的含义:代表当前字符之前的字符串中,有多大长度的相同前缀后缀。例如如果next [j] = k,代表j 之前的字符串中有最大长度为k 的相同前缀后缀。

在某个字符失配时,该字符对应的next 值会告诉你下一步匹配中,模式串应该跳到哪个位置(跳到next [j] 的位置)。如果next [j] 等于0或-1,则跳到模式串的开头字符,若next [j] = k 且 k > 0,代表下次匹配跳到j 之前的某个字符,而不是跳到开头,且具体跳过了k 个字符。

字符串匹配题目:对每个测试用例,输出一行结果:是否子串,是则输出"yes" ,否则输出 “no”

#include<stdio.h>
#include<string.h>
#define max 10005
char zhu[max],zi[max];///zhu为主串,zi为子串
int next[max+2];
void Get_Next(int S)///先求出next数组,S为zi的字符串长度
{
    /*int i = 0, j = -1;
    next[i] = j;
    while(i < S){
        while( j != -1 && zi[i] != zi[j]) j = next[j];///回溯,使j回到-1
        next[++i] = ++j;
    }*/ 
    //网上求next数组的模板为上面注释掉的内容,下面是自己写的求next数组
    int i=1,k=0,next[0]=-1;
    while(i<S)
    {
        if(zi[i]!=zi[k])
            i++,k=0;
        else
            i++,k++;
        next[i]=k;
    }
}
int Kmp()
{
    int S=strlen(zi),L=strlen(zhu),i=0,j=0;
    Get_Next(S);
    while(i<L)
    {
        /*while(j!=-1&&zhu[i]!=zi[j]) ///注意这里要while循环
            j=next[j];
        i++,j++;*/
        //或者也可以用上面所注释的这种写法
        if(j==-1||zhu[i]==zi[j])
            i++,j++;
        else
            j=next[j];
            
        if(j==S)
            return 1;
    }
    return 0;
}
int main()
{
    int T;
    scanf("%d",&T);
    while(T--)
    {
        scanf("%s%s",zhu,zi);
        int q=Kmp();
        if(q)
            printf("yes\n");
        else
            printf("no\n");
    }
    return 0;
}

KMP求子串在主串出现的次数模板:

求取出现的次数 :

#include<bits/stdc++.h>
const int maxn = 1e6 + 10;
char mo[maxn], str[maxn];///mo为模式串、str为主串
int next[maxn];
inline void GetNext()
{
    int i = 0, j = -1, len = strlen(mo);
    next[i] = j;
    while(i < len){
//        if(j == -1 || mo[i] == mo[j]) next[++i] = ++j;
//        else j = next[j];
        while( j != -1 && mo[i] != mo[j]) j = next[j];
        next[++i] = ++j;
    }
}
int KmpCount()///计算模式串在子串出现的次数
{
    GetNext();
    int i = 0, j = 0, strL = strlen(str), moL = strlen(mo);
    int ans = 0;
    while(i < strL){
        while( j != -1 && mo[j] != str[i]) j = next[j];
        i++, j++;
        if(j == moL) ans++;
    }
    return ans;///返回模式串在主串中出现的次数(可重叠出现)
}
int main(void)
{
    scanf("%s %s", str, mo);
    printf("%d\n", KmpCount());
    return 0;
}

求模式串第一次在主串出现的位置 or 匹配是否在主串出现过 :

#include<bits/stdc++.h>
const int maxn = 1e6 + 10;
char mo[maxn], str[maxn];///mo为模式串、str为主串
int next[maxn];
inline void GetNext()
{
    int i = 0, j = -1, len = strlen(mo);
    next[i] = j;
    while(i < len){
        while( j != -1 && mo[i] != mo[j]) j = next[j];
        next[++i] = ++j;
    }
}
int KmpIndex()
{
    GetNext();
    int i =0, j = 0, strL = strlen(str), moL = strlen(mo);
    while(i < strL && j < moL){//对比上面计算模式串在子串出现的次数的代码,为什么这里要加个&& j < moL
        while( j != -1 && str[i] != mo[j]) j = next[j];
        i++, j++;
    }
    if(j == moL) return i - moL;///返回模式串在主串中首次出现的位置,即完全匹配时的开始下标,下标从0开始
    else return -1;///不存在匹配情况 
}
int main(void)
{
    scanf("%s %s", str, mo);
    printf("%d\n", KmpIndex());
    return 0;
}
### KMP算法的概念 KMP(Knuth-Morris-Pratt)算法是一种高效的字符串匹配算法,用于在一个文本串S里查找一个模式串P的位置。该算法通过预处理模式串构建部分匹配表(Partial Match Table, PMT),也称为`next`数组来减少不必要的字符比较次数[^1]。 ### KMP算法与BF算法的区别 相较于暴力(Brute Force, BF)算法逐位移动并逐一比较的方式,当遇到不匹配情况时,KMP利用已经匹配的信息决定下一次应该跳过多少个字符继续比较而不是简单地将模式串向右滑动一位。这种方式显著提高了效率,尤其是在面对大量重复子结构的情况下。 ### 部分匹配表(Next数组) #### Next数组的作用 为了实现上述功能,KMP引入了一个重要的辅助数据结构——`next`数组。这个数组记录着对于给定长度的前缀,在发生失配之后应当转移到哪个状态去尝试重新匹配下一个可能的成功位置。具体来说: - 对于任意索引i处的字符p[i],如果它前面存在最长相等前后缀,则`next[i]`等于此公共前后缀的长度;否则为0。 - 特殊情况下,`next[0]=-1`表示第一个字符之前没有任何有效信息可以用来加速搜索过程[^2]。 #### 构建Next数组的方法 构建`next`数组的过程实际上是对模式串自身的某种形式上的动态规划求解最大相同前后缀问题。其核心在于维护两个指针j和k分别指向当前正在考察的目标位置以及上一步找到的最大相同前后缀结尾后的起始位置,并根据两者所指示字符间的关系调整它们之间的相对距离直至遍历完整个模式串为止。 ```python def build_next(pattern): next_array = [-1] * len(pattern) k = -1 for i in range(1, len(pattern)): while k != -1 and pattern[k + 1] != pattern[i]: k = next_array[k] if pattern[k + 1] == pattern[i]: k += 1 next_array[i] = k return next_array ``` ### KMP算法的具体流程 基于准备好的`next`数组,实际执行字符串匹配操作就变得非常直观了:初始化两个游标s和t分别代表源字符串中的当前位置和目标模式串内的对应偏移量;每当发现一处完全吻合的部分即意味着找到了一个新的合法实例;而一旦检测到冲突则依据预先计算得到的结果迅速定位至最有可能成功的候选起点继续试探下去直到完成整个扫描周期或者提前终止条件被触发。 ```python def kmp_search(text, pattern): n_text = len(text) m_pattern = len(pattern) # 获取pattern对应的next数组 next_arr = build_next(pattern) s = t = 0 while s < n_text and t < m_pattern: if text[s] == pattern[t]: s += 1 t += 1 elif next_arr[t] == -1: s += 1 else: t = next_arr[t] if t >= m_pattern: return s - m_pattern else: return -1 ``` ### KMP算法的时间复杂度分析 由于每次失败后都能借助已知信息快速前进若干步而非仅仅挪动一点点,因此理论上讲KMP能够在O(n+m)时间内解决问题其中n是待查序列总长m则是模板本身大小这使得它成为解决此类任务的理想选择之一特别是针对那些具有高度规律性的输入样本而言更是如此。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值