KMP讲解资料


BF:暴力匹配法O(n*m)

如果用暴力匹配的思路
并假设现在

文本串S匹配到 i 位置
模式串P匹配到 j 位置
则有:

如果当前字符匹配成功(即S[i] == P[j])
        则i++,j++,继续匹配下一个字符;
如果失配(即S[i]! = P[j])
        令i = i - (j - 1),j = 0。
        相当于每次匹配失败时,i 回溯,j 被置为0。

S = "BBC ABCDAB ABCDABCDABDE"
p = "ABCDABD"

1.
BBC ABCDAB ABCDABCDABDE
ABCDABD

2.
BBC ABCDAB ABCDABCDABDE
 ABCDABD

3.
BBC ABCDAB ABCDABCDABDE
  ABCDABD

BBC ABCDAB ABCDABCDABDE
   ABCDABD
4.
BBC ABCDAB ABCDABCDABDE
   ABCDABD
5.
BBC ABCDAB ABCDABCDABDE
    ABCDABD
6.
BBC ABCDAB ABCDABCDABDE
     ABCDABD
7.
BBC ABCDAB ABCDABCDABDE
      ABCDABD






KMP:可以实现复杂度为O(m+n)

下面先直接给出KMP的算法流程
假设现在
文本串S匹配到 i 位置,
模式串P匹配到 j 位置

如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),
        都令i++,j++,继续匹配下一个字符;
如果j != -1,且当前字符匹配失败(即S[i] != P[j]),
        则令 i 不变,j = next[j]。
        此举意味着失配时,模式串P相对于文本串S向右移动了j - next [j] 位。

步骤:
S = "BBC ABCDAB ABCDABCDABDE"
p = "ABCDABD"

1.
BBC ABCDAB ABCDABCDABDE
ABCDABD

2.
BBC ABCDAB ABCDABCDABDE
 ABCDABD

3.
BBC ABCDAB ABCDABCDABDE
  ABCDABD

BBC ABCDAB ABCDABCDABDE
   ABCDABD
4.
BBC ABCDAB ABCDABCDABDE
    ABCDABD
5.
BBC ABCDAB ABCDABCDABDE
    ABCDABD
6.
BBC ABCDAB ABCDABCDABDE
        ABCDABD
7.
BBC ABCDAB ABCDABCDABDE
          ABCDABD

8.
BBC ABCDAB ABCDABCDABDE
           ABCDABD

9.
BBC ABCDAB ABCDABCDABDE
               ABCDABD
....



#include<stdio.h>
#include<string.h>
#include<iostream>
#include<algorithm>
using namespace std;
const int MAXN=1000;

int  next[MAXN];

int plen,slen;
void GetNext(char *p,int plen)
{
        int i,j;
        next[0]=j=-1;
        i=0;
        while(i<plen)
        {
                if( -1 == j ||p[i] == p[j])
                {
                        i++;
                        j++;
                        next[i]=j;
                }
                else
                        j=next[j];
        }
}

int KMP(char *s,char *p,int slen,int plen)
{
        int i=0,j=0;
        while(i<slen&&j<slen)
        {
                if(j==-1||s[i]==p[j])
                {
                        i++;
                        j++;
                }
                else
                        j=next[j];
                if(j==plen)     return i-j;
        }
        return -1;
}

int main()
{
        char s[] = "BBC ABCDAB ABCDABCDABDE";
        char p[] = "ABCDABD";
        plen = strlen(p);
        slen = strlen(s);
        GetNext(p,plen);

        printf("%d\n",KMP(s,p,slen,plen));
        return 0;
}

# 题目重述 请详细讲解 KMP(Knuth-Morris-Pratt)算法的实现原理与工作流程,包括 `next` 数组的作用和匹配过程。 --- # 详解 KMP 算法是一种高效的字符串匹配算法,能够在 $O(n + m)$ 时间内完成模式串在主串中的查找,避免了 BF 算法中主串指针回退带来的重复比较。 ### 🔍 核心思想 当模式串与主串发生字符不匹配时,**不回退主串的指针**,而是根据模式串自身的结构信息(最长相等前后缀),将模式串“滑动”到下一个可能匹配的位置。 这依赖于一个预处理数组——`next` 数组。 --- ### 📌 next 数组的定义 对于模式串 $P$,`next[j]` 表示: > 在模式串前 $j+1$ 个字符中,最长的**相等真前缀****真后缀**的长度。 例如: | 模式串 | j | 字符串前 j+1 位 | next[j] | |--------|---|------------------|---------| | ABAB | 0 | A | 0 | | | 1 | AB | 0 | | | 2 | ABA | 1 | | | 3 | ABAB | 2 | 解释: - `ABA` 的前缀 `{A, AB}`,后缀 `{A, BA}`,公共且最长的是 `A` → 长度为 1。 - `ABAB` 前缀 `{A, AB, ABA}`,后缀 `{B, AB, BAB}`,最长公共是 `AB` → 长度为 2。 所以 `next = [0, 0, 1, 2]` --- ### ⚙️ 构建 next 数组(buildNext) 使用双指针法构造: ```cpp void buildNext(const string& pattern, int next[]) { int m = pattern.length(); next[0] = 0; int len = 0; // 当前最长公共前后缀长度 int i = 1; while (i < m) { if (pattern[i] == pattern[len]) { len++; next[i] = len; i++; } else { if (len > 0) { len = next[len - 1]; // 回退 len } else { next[i] = 0; i++; } } } } ``` > 这个过程本质是“模式串自己匹配自己”。 --- ### 🔁 KMP 匹配过程 设主串为 $S$,模式串为 $P$,长度分别为 $n$ 和 $m$。 初始化: - 主串指针 $i = 0$ - 模式串指针 $j = 0$ 循环直到 $i < n$: 1. 若 $S[i] == P[j]$,则两指针都前进: $$ i++,\quad j++ $$ 2. 若 $j == m$,说明已完全匹配,返回起始位置: $$ \text{match\_pos} = i - j $$ 3. 若 $S[i] \neq P[j]$: - 如果 $j > 0$,令 $j = next[j - 1]$,继续尝试; - 如果 $j = 0$,说明无法再回退,只能移动主串指针 $i++$。 > 主串指针 $i$ **从不回退**,这是 KMP 高效的关键! --- ### ✅ 示例演示 主串:`ABABABC` 模式串:`ABAB` next 数组:`[0, 0, 1, 2]` 匹配过程: ``` i: 0 1 2 3 4 5 6 S: A B A B A B C P: A B A B ↑ ↑ ↑ ↑ → 全部匹配 → 返回 i-j = 4-4 = 0 ``` 成功匹配,返回 0。 --- ### 💡 为什么 KMP 更快? 传统 BF 算法在失配后要回退主串指针,造成大量重复比较。而 KMP 利用模式串内部重复性,通过 `next` 数组跳过不可能成功的匹配位置,提升效率。 --- # 知识点(列出解答该问题需要的知识点) 1. **字符串匹配中的最优子结构** 模式串的前后缀重复性可用于优化搜索,避免无效比较。 2. **next数组的构造原理** 利用动态规划思想,基于已计算的next值递推当前值,实现O(m)构建。 3. **双指针匹配与主串不回退机制** 主串指针只进不退,模式串指针根据next回退,整体时间复杂度降至O(n+m)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值