KMP算法

最新推荐文章于 2024-11-16 09:45:51 发布

原创最新推荐文章于 2024-11-16 09:45:51 发布 · 171 阅读

0 ·

CC 4.0 BY-SA版权

算法笔记学习专栏收录该内容

2 篇文章

订阅专栏

本文深入讲解了KMP算法，一种高效的字符串匹配算法，通过优化next数组实现快速子串查找，避免了传统暴力匹配的重复计算，大幅提高了搜索效率。

给出两个字符串pattern和text，判断pattern是否为text中的子串。如果采用暴力的办法，两层嵌套循环，时间复杂度为O(m * n)，而如果采用KMP算法，时间复杂度可以降为O(m + n)，主要是KMP可以利用之前已经匹配的内容，不必要从头开始。

一，nextsh数组的求解

可以先对pattern串求当子串长度为K + 1时，使该串前缀字串和后缀字串相同的最大的值M，即从pattern[ 0] ~ pattern[M]（前缀串） pattern[length - M] ~ pattern[length -1] （后缀串）相同，且前缀不能是pattern本身。在KMP匹配中，若pattern[ i + 1] 和 text[ j ] 不相同，可以将i退回next中的值，再进行比较，其原因是pattern中的0到i是匹配的，则pattern这一段与text相同，可以将前缀字串移到后缀字串位置（前缀字串与后缀字串相同），再继续比较，不必将pattern的指针换到字符串头部，从新开始。

如上图中，橙色1和2失配，可以将pattern退到（1，2）串处，（1，2，1）中前面的1和后面的1构成前缀，后缀串，不必从开头的1开始。

求next串的思路与KMP类似，也是根据前面的结果。假设求next[ k] 的值，已知next[ k -1] 的值为M，如果pattern在M + 1的值和length - 1（字符串尾端）的值相同，则把next[ k -1]的值加一即可（根据next的ding'定义，扩大前缀，后缀的长度）；如果不相等，则不断令 M = next[M] ，继续比较M + 1 与length - 1的值，直到相等（next[ k] = M + 1）或者 M为-1（前缀后缀失配，next[k] = -1)

其源码如下

// next()数组，指当字符串为i（从0开始）时，字符串最大重叠子串 
void initNext(char str[], int length, int next[]){
	next[0] = -1; // 初始指向-1，根据next的定义可知 
	for(int i = 1; i < length; ++i){
		int j = next[i - 1];
		while(j != -1 && str[j + 1] != str[i]){ // 当前满足条件的最大子串尾部的后一个字符与字符串尾部是否匹配  
			j = next[j]; // 回退上一个 
		}
		if(str[j + 1] == str[i]){ // 当匹配时  
			j++;
		}
		next[i] = j;
	}
	return;
}

二，KMP算法

源码

// KMP算法 
int Kmp(char text[], int length1, char pattern[], int length2, int nextBest[]){
	int i = -1, j = 0, cnt = 0; // i为pattern指针 ，j为text指针， cnt能匹配到的个数  
	while(j < length1){
		while(i != -1 && text[j] != pattern[i + 1]){ // 当失配时，不断向前调整 
			i = nextBest[i];
		}
		if(text[j] == pattern[i + 1]){ // 该点匹配成功 
			j++;
			i++;
		}
		if(i == -1){ // 当整个模式串失配时 
			j++;
		}
		if(i == length2 - 1){ // 当刚好匹配时 
			cnt++;
			i = nextBest[i];
		}
	}
	return cnt;
}

三，对next数组的调整

在KMP匹配中，我们可以发现如果pattern[ i + 1] 和text[j] 不匹配，可以使用next[i]进行回调，假设回调为p, 如果pattern[p + 1] 与pattern[i + 1] 相同，则其必然与 text[j] 不匹配，还需要继续回调到合适的，那么我们能否在next构建的时候ji就考虑好这个问题呢？

源码如下

// nextBest[]数组，为next()数组的优化情况
void initNextBest(char str[], int length, int nextBest[]){
	nextBest[0] = -1;
	for(int i = 1; i < length; ++i){
		int j = nextBest[i - 1];
		while(j != -1 && str[j + 1] !=  str[i]){
			j = nextBest[j];
		}
		if(str[j + 1] == str[i]){
			j++;
		}
		// 其上与next相同 
		if(str[i + 1] == str[j + 1]){ //当与上一次的情况相同时，继续回退 
			j = nextBest[j];
		}
		nextBest[i] = j;
	}
	return;
}