KMP字符串匹配

本文深入探讨了KMP(Knuth-Morris-Pratt)字符串匹配算法,详细阐述了其原理和时间复杂度。通过实例展示了如何利用next数组优化匹配过程,减少不必要的回溯。同时,提供了Java代码实现,便于理解与应用。

KMP(KnuthMorrisPratt)字符串匹配算法是一种时间复杂度很低的字符串匹配算法。

字符串匹配的任务是:对于长度为n的字符串string,寻找长度为m的子串pattern,若找到则返回string中第一次出现子串pattern的第一个字符的下标,否则返回-1。

时间复杂度:O(n + m)

空间复杂度:O(m)

相比于暴力匹配字符串需要O(nm)的时间复杂度,KMP算法只要O(n + m)的时间复杂度。

KMP字符串匹配方法

现以string = "abababc",pattern = "ababc"为例来说明KMP字符串匹配的方法。此时n = 7,m = 5。

设当前在比较string和pattern的下标分别为i和j,当i = 4,j = 4时发现字符串不一致,如下所示:

abababc
ababc
        ^

此时string[4] = 'a',pattern[4] = 'c'。传统的暴力字符串匹配此时会设i = 1,j = 0回去比较string[1]与pattern[0]的值。但是仔细观察可以发现现在已知string[2:4] = "ab"和pattern[0:2] = "ab"是匹配的,我们只需要继续比较string[4]和pattern[2],即设j = 2,i = 4保持不变即可,如下所示:

abababc
    ababc
        ^

基于我们已知的pattern字符串,我们可以预先计算出一个长度为m的数组next,当在位置j匹配失败时,保持i不变,把j的值设为next[j]然后继续进行匹配。此时next数组的值如下:

patternababc
index01234
next-10012

java代码实现

import java.util.Arrays;

public class KnuthMorrisPratt {

    public final String pattern;
    private int[] next;

    public KnuthMorrisPratt(String pattern) {
        this.pattern = pattern;
        next = getNext(pattern);
    }

    private static int[] getNext(String pattern) {
        int[] next = new int[pattern.length()];
        if (next.length == 0) return next;
        next[0] = -1;
        for (int i = 0, j = -1; i < next.length - 1;) {
            if (j == -1 || pattern.charAt(i) == pattern.charAt(j)) {
                next[++i] = ++j;
            } else {
                j = next[j];
            }
        }
        return next;
    }

    public int search(String string) {
        int n = string.length(), m = pattern.length();
        if (m == 0) return 0;
        if (n < m) return -1;
        for (int i = 0, j = 0; i < n;) {
            if (j == -1 || string.charAt(i) == pattern.charAt(j)) {
                i++; j++;
            } else {
                j = next[j];
            }
            if (j == m) {
                return i - m;
            }
        }
        return -1;
    }

    public static void main(String[] args) {
        KnuthMorrisPratt kmp = new KnuthMorrisPratt("ababc");
        System.out.println(kmp.search("abababc"));  // 2
        System.out.println(Arrays.toString(kmp.next));  // [-1, 0, 0, 1, 2]
    }
}

继续观察发现next[3] = 1好像没有必要,因为pattern[3]和pattern[1]都是'b',j = 3时匹配失败回到j = 1匹配一定也会失败,因此getNext函数还能继续优化:

    private static int[] getNext(String pattern) {
        int[] next = new int[pattern.length()];
        if (next.length == 0) return next;
        next[0] = -1;
        for (int i = 0, j = -1; i < next.length - 1;) {
            if (j == -1 || pattern.charAt(i) == pattern.charAt(j)) {
                if (pattern.charAt(++i) == pattern.charAt(++j)) {
                    next[i] = next[j];
                } else {
                    next[i] = j;
                }
            } else {
                j = next[j];
            }
        }
        return next;
    }

源代码地址https://github.com/SSSxCCC/Algorithm

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SSSxCCC

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值