KMP算法(Knuth-Morris-Pratt字符串查找算法)

KMP算法是一种高效的字符串查找算法,通过部分匹配表(PMT)避免了暴力匹配中的重复比较。在匹配失败时,KMP算法利用预计算的next数组跳过已匹配的部分,减少回溯,从而提高效率。文章介绍了KMP算法的工作原理,给出了算法的Java实现,并详细阐述了PMT表的生成过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

KMP算法的全称为Knuth-Morris-Pratt字符串查找算法,是可以在文本串s中快速查找模式串p的一种算法。

在详细讲解KMP算法之前,首先讲解一下暴力匹配。暴力匹配就是逐字符逐字符地进行匹配(比较s[i]s[j]),如果当前字符匹配成功(s[i]==s[j]),就匹配下一个字符(i++;j++;);如果匹配失败的话,就回溯(i=i-j+1;j=0;)。这样的算法时间复杂度是 O ( n m ) O(nm) O(nm)

从上面可以看出暴力匹配算法,每次都会回溯到刚开始匹配的下一个字符,这样比较耗时,如果我们跳过之前匹配的字符从匹配失败的位置重新匹配,这样会出现缺漏。

为了解决这个问题,研究者引入了PMT(Partial Match Table,部分匹配表)。下一次j应该赋什么值只与模式串自身有关,即每个字符串都会对应一张PMT表。PMT中的pmt数组中位置i的内容是,从p[0]往后数、同时从p[i]往前数相同的位数,在保证前后缀相同的情况下,最多能数多少位。

KMP算法具体的匹配过程以ababcabaa为例:

在这里插入图片描述

在匹配字符串的过程中,当我们在匹配j=8时发现s[i]p[j]不相等,则会令j=pmt[j-1]=pmt[7]=3重新进行匹配,若此时s[i]p[j]仍不相同,则继续令j进行回退。直至j回退到0处且仍不匹配时,我们不再令j回退,而选择移动i

具体的KMP算法的正确匹配过程请阅读文献1。

KMP代码实现为:

public int strStr(String s, String p) {
    int n = s.length(), m = p.length();
    char[] cs = s.toCharArray(), cp = p.toCharArray();
    int[] next = next(p);

    for (int i = 0, j = 0; i < n; i++) {
        while (j != 0 && cs[i] != cp[j]) j = next[j - 1];
        if (cs[i] == cp[j]) j++;
        if (j == m) return i - j + 1;
    }

    return -1;
}

PMT表的生成过程,如果使用暴力的话,时间复杂度会是 O ( n 2 ) O(n^2) O(n2)。这种做法复杂度较高,因此我们采用更精妙的做法,错开一位后,让p自己匹配自己,即用前缀去匹配后缀。其具体过程为下图所示:

在这里插入图片描述

PMT数组生成的代码为:

public int[] next(String p) {
    int m = p.length();
    int[] pmt = new int[m];

    char[] cs = p.toCharArray();

    for (int i = 1, j = 0; i < m; i++) {
        while (j != 0 && cs[i] != cs[j]) j = pmt[j - 1];
        if (cs[i] == cs[j]) j++;
        pmt[i] = j;
    }
    return pmt;
}

题目链接

  1. 数组和字符串-实现 strStr()

参考文献:

  1. 算法学习笔记(13): KMP算法
KMP算法是一种高效的字符串匹配算法,用于在一个文本串中查找指定模式串的所有出现位置。在C++中实现KMP算法,你需要准备两个关键部分:模式串的前缀函数计算以及实际的匹配过程。 1. **计算前缀函数**: - 创建一个`next`数组,长度等于模式串的长度。`next[i]`表示在发生错误时,模式串应从当前位置`i`跳到的位置,使得匹配能继续进行。 - 通过以下步骤计算`next`数组: - 初始化`next[0] = 0`,因为一个空的前缀不可能导致失败。 - 从`i = 1`开始遍历模式串,如果`pattern[i] == pattern[next[i-1]]`,则`next[i] = next[i-1]+1`;否则,尝试从更大的跳跃值开始找到最长的相等子串,即`j = next[next[i-1]]`,然后`next[i] = j + 1`,直到找到一个大于0的`j`或者`pattern[i]`和`pattern[j+1]`都不相等为止。 2. **字符串匹配**: - 定义两个指针`text_ptr`和`pattern_ptr`,分别指向文本串和模式串的起始位置。 - 当`text_ptr`和`pattern_ptr`都有效(即都在各自的串内)且`text[text_ptr]`等于`pattern[pattern_ptr]`时,同时增加两个指针。 - 如果不相等,首先检查`pattern_ptr`是否可以用`next[pattern_ptr]`进行跳跃,若可以则移动`pattern_ptr`;若不能,则只移动`text_ptr`,因为它无法找到正确的匹配。 以下是简单的C++代码示例: ```cpp #include <vector> using namespace std; vector<int> getPrefixFunction(const string& pattern) { int len = pattern.size(); vector<int> next(len); for (int i = 1, j = 0; i < len; ++i) { while (j > 0 && pattern[i] != pattern[j]) j = next[j - 1]; if (pattern[i] == pattern[j]) ++j; next[i] = j; } return next; } bool KMPMatch(const string& text, const string& pattern, vector<int>& prefix) { int text_len = text.length(), pattern_len = pattern.length(); int text_ptr = 0, pattern_ptr = 0; while (text_ptr < text_len && pattern_ptr < pattern_len) { if (text[text_ptr] == pattern[pattern_ptr]) text_ptr++, pattern_ptr++; else if (pattern_ptr > 0) pattern_ptr = prefix[pattern_ptr - 1]; else text_ptr++; } return pattern_ptr == pattern_len; } int main() { string text = "ABABCABADCAB"; string pattern = "ABCD"; vector<int> prefix = getPrefixFunction(pattern); cout << "Pattern found in the text? : " << (KMPMatch(text, pattern, prefix) ? "Yes" : "No") << endl; return 0; } ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值