KMP(KnuthMorrisPratt)字符串匹配算法是一种时间复杂度很低的字符串匹配算法。
字符串匹配的任务是:对于长度为n的字符串string,寻找长度为m的子串pattern,若找到则返回string中第一次出现子串pattern的第一个字符的下标,否则返回-1。
时间复杂度:O(n + m)
空间复杂度:O(m)
相比于暴力匹配字符串需要O(nm)的时间复杂度,KMP算法只要O(n + m)的时间复杂度。
KMP字符串匹配方法:
现以string = "abababc",pattern = "ababc"为例来说明KMP字符串匹配的方法。此时n = 7,m = 5。
设当前在比较string和pattern的下标分别为i和j,当i = 4,j = 4时发现字符串不一致,如下所示:
abababc
ababc
^
此时string[4] = 'a',pattern[4] = 'c'。传统的暴力字符串匹配此时会设i = 1,j = 0回去比较string[1]与pattern[0]的值。但是仔细观察可以发现现在已知string[2:4] = "ab"和pattern[0:2] = "ab"是匹配的,我们只需要继续比较string[4]和pattern[2],即设j = 2,i = 4保持不变即可,如下所示:
abababc
ababc
^
基于我们已知的pattern字符串,我们可以预先计算出一个长度为m的数组next,当在位置j匹配失败时,保持i不变,把j的值设为next[j]然后继续进行匹配。此时next数组的值如下:
| pattern | a | b | a | b | c |
| index | 0 | 1 | 2 | 3 | 4 |
| next | -1 | 0 | 0 | 1 | 2 |
java代码实现:
import java.util.Arrays;
public class KnuthMorrisPratt {
public final String pattern;
private int[] next;
public KnuthMorrisPratt(String pattern) {
this.pattern = pattern;
next = getNext(pattern);
}
private static int[] getNext(String pattern) {
int[] next = new int[pattern.length()];
if (next.length == 0) return next;
next[0] = -1;
for (int i = 0, j = -1; i < next.length - 1;) {
if (j == -1 || pattern.charAt(i) == pattern.charAt(j)) {
next[++i] = ++j;
} else {
j = next[j];
}
}
return next;
}
public int search(String string) {
int n = string.length(), m = pattern.length();
if (m == 0) return 0;
if (n < m) return -1;
for (int i = 0, j = 0; i < n;) {
if (j == -1 || string.charAt(i) == pattern.charAt(j)) {
i++; j++;
} else {
j = next[j];
}
if (j == m) {
return i - m;
}
}
return -1;
}
public static void main(String[] args) {
KnuthMorrisPratt kmp = new KnuthMorrisPratt("ababc");
System.out.println(kmp.search("abababc")); // 2
System.out.println(Arrays.toString(kmp.next)); // [-1, 0, 0, 1, 2]
}
}
继续观察发现next[3] = 1好像没有必要,因为pattern[3]和pattern[1]都是'b',j = 3时匹配失败回到j = 1匹配一定也会失败,因此getNext函数还能继续优化:
private static int[] getNext(String pattern) {
int[] next = new int[pattern.length()];
if (next.length == 0) return next;
next[0] = -1;
for (int i = 0, j = -1; i < next.length - 1;) {
if (j == -1 || pattern.charAt(i) == pattern.charAt(j)) {
if (pattern.charAt(++i) == pattern.charAt(++j)) {
next[i] = next[j];
} else {
next[i] = j;
}
} else {
j = next[j];
}
}
return next;
}
本文深入探讨了KMP(Knuth-Morris-Pratt)字符串匹配算法,详细阐述了其原理和时间复杂度。通过实例展示了如何利用next数组优化匹配过程,减少不必要的回溯。同时,提供了Java代码实现,便于理解与应用。
1607

被折叠的 条评论
为什么被折叠?



