KMP

最新推荐文章于 2025-03-16 21:24:27 发布

原创最新推荐文章于 2025-03-16 21:24:27 发布 · 168 阅读

CC 4.0 BY-SA版权

字符串匹配：KMP，就是给出一个长串T，给出一个短串P，求T是否包含子串P，若包含，输出第一个子串的位置。否则输出-1。

首先假定i是T的指针，j是P的指针。
对于传统的匹配模式，每当T[i] != P[j]时，我们会把j变成0，i跳回到刚才匹配的起始位置的下一个位置重新进行匹配，这样复杂度是O(n*m).

但是对于KMP思想，可以先构造一个next数组，next[j] = k 表示，短串中的子串0 ~ j的串中，以P[j]结尾的后缀串，与该子串中以P[0]开头的前缀串重复时，k的位置。
即有P[0] ~ P[k] = P[j - k] ~ P[j].

这样，在匹配过程中当短串匹配到j，长串匹配到了i，然后下一个字符不匹配，那么其实P[0] ~ P[j] 是与 T[i - j] ~ T[i]是匹配的。那么，我们利用短串中后缀与前缀的关系，让下一次匹配的位置变成next[j].假设next[j] = k,那么其实短串中的P[0] ~ P[k]是已经与长串中的T[i - k] ~ T[k]是匹配过的了（一开始与后缀匹配成功了，而这个前缀和后缀是相同滴）。所以就这样匹配下去了。

//////////////////////////////////////
另外注意的是，得到的后缀和前缀的长度都是k，且这个k应该是最长的，能满足前缀和后缀相等的值。因为KMP匹配过程中，长串的指针j是不需要回溯的，所以我们要保证能利用到j前面那些匹配成功的字符。

如果不是k最长的反例：
假设长串aaaaaab
短串aaaaab
若令next[0] = next[5] = -1 ; next[1] ~ next[4] = 0;
则会发现返回的结果是匹配不成功。
(因为长串的指针不回溯，需要利用到前面那段匹配过的结果)
///////////////////////////////////////////

言归正传，KMP,下面是对于整型的情况（HDU 1711)


void get_next(int *p, int *next) //p是短串
{
	int i = 1, j = 0;
	next[0] = -1;
	while (i < m)    //m是短串长度
	{
		if (p[i] == p[j])
		{
			next[i] = j;
			j++;

		}
		else
		{
			if (p[i] == p[0])
			{
				next[i] = 0;
				j = 1;

			}
			else
			{
				next[i] = -1;
				j = 0;
			}
		}
		++i;
	}
}
void kmp()
{
	int i = 0, j = 0;
	while (i < n)  //n是长串长度
	{
		if (T[i] == P[j]) //P是短串，T是长串
		{

			if (j == m - 1)
			{
				printf("%d\n", i - j + 1);
				break;
			}
			++i, ++j;
		}
		else
		{
			if (j == 0)
			{
				j = 0;
				i++;
			}
			else j = nex[j - 1] + 1;
		}
	}
	if (i == n) printf("-1\n");
}