kmp 算法

本文介绍了KMP算法的基本思想和应用,通过28. 实现 strStr() 举例说明了KMP算法如何优化字符串匹配过程,特别是Next数组的构建和回溯策略,强调了理解和实践KMP算法的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

KMP 相关题目

  1. 28. 实现 strStr()

  2. 459. 重复的子字符串

  3. 686. 重复叠加字符串匹配

基本思想

KMP 算法是字符串匹配中经典算法,由 Knuth,Morris 和 Pratt 发现,所以取了三位学者名字的首字母,叫做KMP 算法

28. 实现 strStr() 为例

给你两个字符串 haystackneedle ,请你在 haystack 字符串中找出 needle 字符串出现的第一个位置(下标从 0 开始)。如果不存在,则返回 -1

我们普通人的暴力破解思路:

func strStr(haystack string, needle string) int {
	if len(needle) == 0 {
		return 0
	}
	for i := 0; i <= len(haystack) -len(needle); i ++ {
		j := 0
		for ; j < len(needle); j ++ {
			if haystack[i + j] != needle[j] {
				break
			}
		}
		if j == len(needle) {
			return i
		}
	}
	return -1
}

这个解法在 Leetcode 能通过,但显然不是出题人所希望的答案

暴力思路:

  • 当匹配不成功,haystack 从开始匹配的位置后移一位,与 needle 开始重新匹配

image-20220123215542872

KMP 思路:

  • 当匹配不成功时,其前面的字符已经匹配成功了,这里面就包含一定的信息,可以让字符匹配的位置不从头开始了

如下例子:

image-20220123220101978

可以看到使用 KMP 算法可以大幅优化字符串匹配比对次数,不过 kmp 算法能够优化关键在于最长相等前缀后缀,在上述例子中就是 ABB

image-20220123220821269

因此 KMP 算法中最关键的 Next 数组其实就是保存最长相等前缀后缀这个信息的, 以 ABBCABBD 为例

image-20220123221403556

i子字符串前缀后缀next[i]
0A“”“”0
1AB[A][B]0
2ABB[A,AB][B,BB]0
3ABBC[A,AB,ABB][C,BC,BBC]0
4ABBCA[A,AB,ABB,ABBC][A,CA,BCA,BBCA]1
5ABBCAB[A,AB,ABB,ABBC,ABBCA][B,AB,CAB,BCAB,BBCAB]2
6ABBCABB[A,AB,ABB,ABBC,ABBCAB][B,BB,ABB,CABB,BCABB,BBCABB]3
7ABBCABBD[A,AB,ABB,ABBC,ABBCABB][D,BD,BBD,ABBD,CABBD,BCABBD,BBCABBD]0

假设我们已经计算出了上述 NEXT 数组,回溯过程为:

  • 假设在 ABBCABBD 最后位置 len(needle) - 1D字符处匹配失败
  • 回溯到 Next[len(needle) - 2] 指向的位置比较,即 needle 从 字符串位置 3 的字符 C开始比较

匹配过程如下:

func strStr(haystack string, needle string) int {
	if len(needle) == 0 {
		return 0
	}
	// 计算 Next 数据
	next := getNext(needle)
	j := 0
	for i := 0; i < len(haystack); i ++ {
		// 如果字符不匹配, 两种情况: 1. j 回溯匹配 2. j == 0, 则跳出此循环 i ++ 再来匹配 
		for haystack[i] != needle[j] {
			if j == 0 {
				break
			}
			// j 回溯 next[j-1] 的位置比较
			j = next[j - 1]
		}
		// 字符匹配上了:j++
		if haystack[i] == needle[j] {
			j ++
		}
		if j == len(needle) {
			return i - j + 1
		}

	}
	return -1
}

那 Next 数组如何构建?

  • 遍历 needle 所有 i 位置的所有前缀后缀,计算最长相等长度
func getNext(needle string) []int {
	next := make([]int, len(needle))
	for j := 1; j < len(needle); j++ {
		max := 0
		// 遍历 i 的所有前后缀,找出最长相等的
		for l := 1; l <= j; l ++ {
			prefix := needle[0:l]
			suffix := needle[j-l+1:j + 1]
			if prefix == suffix {
				if l > max {
					max = l
				}
			}
		}
		next[j] = max
	}
	return next
}

显然上述计算两层循环复杂度太高

假设Next[i-1]=j 即 j 为最长相等前后缀长度,即 j 位置指向的字符则是下一个匹配的字符,Next[i] 的取值有以下情况:

  1. needle[j] == needle[i], 则 next[i] = j + 1

image-20220124011048162

  1. needle[j] != needle[i], j 需要回溯j = next[j-1] 处重新比较 j 与 i 处的字符串是否相等

    image-20220124011148225

因此完整getNext(needle string)[]int方法为:

func getNext(s string) []int {
	next := make([]int, len(s))
	j := 0
	next[0] = j
	for i := 1; i < len(s); i ++  {
		for j > 0 && s[i] != s[j] {
			j = next[j-1]
		}
		if s[i] == s[j] {
			j ++
		}
		next[i] = j
	}
	return next
}

总结

leetcode 28 虽然只是个简单题,但仅仅在接受暴力解法时简单。kmp 算法比较复杂,并且在构建 next 数组 j 的回溯难以理解,应该多做几次,加强印象。

参考

http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html

### KMP算法的实现 KMP算法是一种高效的字符串匹配算法,它通过构建部分匹配表(也称为`next`数组)来减少不必要的回溯操作[^2]。以下是基于Python语言的KMP算法实现: ```python def compute_next_array(pattern): next_arr = [-1] * len(pattern) i, j = 0, -1 while i < len(pattern) - 1: if j == -1 or pattern[i] == pattern[j]: i += 1 j += 1 next_arr[i] = j else: j = next_arr[j] return next_arr def kmp_search(text, pattern): m, n = len(text), len(pattern) next_arr = compute_next_array(pattern) i, j = 0, 0 while i < m and j < n: if j == -1 or text[i] == pattern[j]: i += 1 j += 1 else: j = next_arr[j] if j == n: return i - j # 返回匹配起始位置 return -1 # 表示未找到匹配项 ``` 上述代码分为两部分: - `compute_next_array()` 函数用于计算模式串的部分匹配表(即`next`数组)。这部分的核心在于利用已知的最大公共前后缀长度来优化后续匹配过程[^5]。 - `kmp_search()` 函数则负责执行具体的字符串匹配逻辑。 --- ### KMP算法的应用场景 #### 文本编辑器中的查找功能 在文本编辑器中,当用户输入一段文字并希望快速定位某个关键词时,可以采用KMP算法完成这一任务。相比传统的暴力匹配方法,KMP能够在更短的时间内返回结果,尤其适用于大规模文档环境下的搜索需求[^1]。 #### 数据清洗与预处理 在大数据领域,经常需要对海量日志文件或其他形式的数据集进行过滤或提取特定字段的操作。此时如果目标子串固定不变,则可预先生成对应的`next`数组,在多次查询过程中显著提升效率[^3]。 #### 生物信息学研究 DNA序列由四种碱基组成(A,T,C,G),因此对于某些基因片段的研究工作而言,频繁涉及相似结构单元之间的对比分析。借助于KMP技术,研究人员能够更加便捷地识别出感兴趣的区域及其分布规律[^4]。 --- ### 性能优势总结 总体来看,由于引入了额外的信息存储机制——即所谓的“失败指针”,使得整个流程无需反复跳转至初始状态重新尝试;从而大幅降低了最坏情况下的时间开销,并保持相对稳定的内存占用水平[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值