KMP算法讲解 +例题:PTA 7-6 字符串模式匹配(KMP)

KMP算法(Knuth-Morris-Pratt算法)是一种用于在一个字符串(文本)中查找一个子串(模式串)的高效算法。KMP算法的核心思想是利用模式串本身的特性,在匹配过程中尽可能减少不必要的比较次数。

KMP算法的关键是构建一个最长公共前后缀数组(LPS数组),这个数组告诉我们在模式串中对于每个位置,最长的相等的前缀和后缀有多长。有了这个数组,我们可以利用已经匹配过的信息来避免不必要的回溯。

下面是KMP算法的主要步骤:

1. 构建LPS数组:对于模式串P[0..j],计算其最长相等的前缀和后缀的长度

LPS数组的构建方法:


构建模式串的LPS数要的回溯。组是KMP算法的关键步骤之一,它的作用是利用模式串自身的特性来避免在匹配过程中不必

LPS数组的值表示了模式串中对于每个位置,最长的相等的前缀和后缀的长度。这个信息可以帮助我们在匹配过程中尽可能减少不必要的比较次数。

让我用一个简单的例子来解释为什么需要构建模式串的LPS数组:

假设模式串P为:"ABABCABAB"。

首先,我们需要找出模式串中每个位置的最长相等的前缀和后缀的长度。这将使我们能够在匹配过程中利用已经匹配过的信息,避免不必要的回溯。

现在让我们来看一下模式串的LPS数组是如何计算的:

对于位置0,前缀和后缀都为空,因此LPS[0] = 0。
对于位置1,前缀为"A",后缀为"B",没有相等的前缀和后缀,因此LPS[1] = 0。
对于位置2,前缀为"AB",后缀为"AB",它们相等的前缀和后缀的长度为1,因此LPS[2] = 1。
对于位置3,前缀为"ABA",后缀为"CAB",它们没有相等的前缀和后缀,因此LPS[3] = 0。
对于位置4,前缀为"ABAB",后缀为"ABAB",它们相等的前缀和后缀的长度为2,因此LPS[4] = 2。
对于位置5,前缀为"ABABC",后缀为"ABABC",它们没有相等的前缀和后缀,因此LPS[5] = 0。
对于位置6,前缀为"ABABCA",后缀为"BAB",它们相等的前缀和后缀的长度为1,因此LPS[6] = 1。
对于位置7,前缀为"ABABCAB",后缀为"AB",它们相等的前缀和后缀的长度为2,因此LPS[7] = 2。
对于位置8,前缀为"ABABCABA",后缀为"B",它们相等的前缀和后缀的长度为3,因此LPS[8] = 3。
对于位置9,整个模式串为"ABABCABAB",它的前缀和后缀完全相等,因此LPS[9] = 4。
因此,模式串"ABABCABAB"的LPS数组为[0, 0, 1, 2, 0, 1, 2, 3, 4]。

通过构建LPS数组,KMP算法可以在匹配过程中利用这些信息,避免不必要的回溯,从而提高匹配的效率。

2. 匹配过程:从左到右遍历文本串T,同时遍历模式串P。当遇到不匹配的字符时,根据LPS数组将模式串向右移动,而不是直接回到模式串的起始位置。

可以这么做的原因:

在 KMP 算法中,当在文本串中匹配到一个字符与模式串中的字符不匹配时,我们需要将模式串向右移动一定的距离,以尽可能地避免重复比较已经匹配过的字符。

根据 LPS 数组可以计算出模式串需要向右移动的距离。具体来说,当在文本串中匹配到一个字符与模式串中的字符不匹配时,我们可以利用 LPS 数组找到模式串中最长的相等前缀和后缀的长度,然后将模式串向右移动这个长度的距离。

这是为什么呢?因为当模式串中的某个字符与文本串中的某个字符不匹配时,我们需要找到模式串中最长的相等前缀和后缀,将模式串向右移动这个长度,可以保证我们不会错过任何可能的匹配。因为如果这个相等前缀和后缀出现在模式串的其他位置,那么在这个位置上匹配时,它们也是相等的,因此我们可以直接跳过这些已经匹配过的字符,将模式串向右移动到这个位置。

举个例子,假设我们在文本串中匹配到了一个字符与模式串中的字符不匹配,此时我们的模式串已经匹配了前缀 "ABABCA",但是下一个字符不匹配,我们需要将模式串向右移动一定的距离。根据 LPS 数组,我们可以知道模式串中最长的相等前缀和后缀的长度为 2,因此我们可以将模式串向右移动 5 - 2 = 3 个位置,从而跳过已经匹配过的前缀 "ABA",将模式串移动到 "BABCABAB" 的位置,继续匹配。

下面是一个简单的例子来说明KMP算法的匹配过程:

假设文本串T为:"ABABDABACDABABCABAB",模式串P为:"ABABCABAB"。

1. 首先,构建模式串的LPS数组:[0, 0, 1, 2, 0, 1, 2, 3, 4, 5]。2. 开始匹配过程:从左到右遍历文本串T和模式串P。

   - 当T[0]和P[0]匹配时,继续比较T[1]和P[1]。

   - 当T[3]和P[3]不匹配时,根据LPS数组将模式串向右移动3位,即P[0..2]和T[3]对齐。

   - 继续比较T[3]和P[3],发现它们匹配。

   - 重复以上步骤直到找到完全匹配或者遍历完整个文本串。

KMP算法的核心思想是,当遇到不匹配的情况时,利用已经匹配过的信息,尽可能减少回溯的次数,从而提高匹配的效率。这使得KMP算法在实际应用中具有很好的性能。

下面是我遇到的题目 

PTA  7-6 字符串模式匹配(KMP)

分数 30

作者 李廷元

单位 中国民用航空飞行学院

例题:

给定一个字符串 text 和一个模式串 pattern,求 pattern 在text 中的出现次数。text 和 pattern 中的字符均为英语大写字母或小写字母。text中不同位置出现的pattern 可重叠。

输入格式:

输入共两行,分别是字符串text 和模式串pattern。

输出格式:

输出一个整数,表示 pattern 在 text 中的出现次数。

输入样例1:

zyzyzyz
zyz

输出样例1:

3

输入样例2:

AABAACAADAABAABA
AABA

输出样例2:

3

数据范围与提示:

1≤text, pattern 的长度 ≤106, text、pattern 仅包含大小写字母。

代码长度限制

16 KB

时间限制

500 ms

内存限制

64 MB

下面是我的代码:

#include <iostream>
#include <string>
using namespace std;

void LPS(const string& pattern, int* lps)
{
    int n = pattern.length();
    int len = 0;
    lps[0] = 0;
    int i = 1;
    while (i < n) {
        if (pattern[i] == pattern[len])
        {
            len++;
            lps[i] = len;
            i++;
        }
        else
        {
            if (len != 0)
            {
                len = lps[len - 1];
            }
            else
            {
                lps[i] = 0;
                i++;
            }
        }
    }
}

int KMP(const string& text, const string& pattern)
{
    int n = text.length();
    int m = pattern.length();
    int lps[m] = {0};
    LPS(pattern, lps);
    int count = 0;
    int i = 0, j = 0;
    while (i < n)
    {
        if (text[i] == pattern[j])
        {
            i++;
            j++;
            if (j == m) {
                count++;
                j = lps[j - 1];
            }
        }
        else
        {
            if (j > 0)
            {
                j = lps[j - 1];
            } 
            else
            {
                i++;
            }
        }
    }
    return count;
}

int main()
{
    string text, pattern;
    cin >> text >> pattern;
    int result = KMP(text, pattern);
    cout << result << endl;
    return 0;
}

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

梓仁沐白

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值