算法导论-第32章-字符串匹配

字符串匹配算法概览：从朴素到高效

原创

已于 2023-07-02 22:48:00 修改 · 605 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#算法

于 2023-07-02 21:59:02 首次发布

文章介绍了几种常见的字符串匹配算法，包括朴素算法、Rabin-Karp算法、有限自动机和Knuth-Morris-Pratt（KMP）算法。朴素算法在最坏情况下的时间复杂度为O((n-m+1)m)，而Rabin-Karp算法利用滚动哈希降低了比较次数。有限自动机通过预处理构建高效匹配机制，匹配时间复杂度为Θ(n)。KMP算法通过部分匹配表避免了文本串指针回退，提高了匹配效率。

字符串匹配算法在文本文件中查找模式、DNA序列搜寻、网络引擎搜索中都有应用。

字符串匹配问题的形式化定义：假设文本是一个长为 $n$ 的数组 $T [1.. n]$ ，而模式是一个长度为 $m$ 的数组 $P [1.. m]$ ，其中 $\le n$ 。字符数组 $P$ 和 $T$ 通常称为字符串。

Figure 32.1

如果 $\le s \le n-m$ ，并且 $T [s + 1.. s + m] = P [1.. m]$ （即如果 $T [s + j] = P [j]$ ，其中 $\le j \le m$ ），那么称模式 $P$ 在文本 $T$ 中出现，其偏移为 $s$ 。如果 $P$ 在 $T$ 中以偏移 $s$ 出现，则称 $s$ 为有效偏移，否则，称为无效偏移。

32.1节讲解朴素字符串匹配算法，32.2节讲解Rabin-Karp算法，32.3节讲解利用优先自动机进行字符串匹配，32.4节讲解Knuth-Morris-Pratt算法。

除了朴素算法外，其他字符串匹配算法都基于模式进行了预处理，然后找到所有有效偏移，我们称第二步为“匹配”。下表给出了每个算法的预处理时间和匹配时间。每个算法的总运行时间是预处理时间和匹配时间的和。

算法	预处理时间	匹配时间
朴素算法	$0$	$O((n−m+1)m)\Omicron((n-m+1)m)$
Rabin-Karp算法	$Θ(m)\Theta(m)$	$O((n−m+1)m)\Omicron((n-m+1)m)$
有限自动机算法	$O(m∑)\Omicron(m\sum)$	$Θ(n)\Theta(n)$
Knuth-Morris-Pratt	$Θ(m)\Theta(m)$	$Θ(n)\Theta(n)$

符号和术语

$∑∗\sum^*$ 表示包含所有有限长度的字符串集合， $∑\sum$ 表示字母表；
$∣ x ∣$ 表示字符串 $x$ 的长度；
两个字符串 $x$ 和 $y$ 的连结用 $x y$ 表示，长度为 $∣ x ∣ + ∣ y ∣$ ，由 $x$ 的字符后接 $y$ 的字符构成；
字符串 $w$ 是字符串 $x$ 的前缀，记作 $\sqsubset x$ ；字符串 $w$ 是字符串 $x$ 的后缀，记作 $\sqsupset x$ ；
空字符串 $ε\varepsilon$ 是任何一个字符串的前缀和后缀。

后缀重叠引理：假设 $x, y$ 和 $z$ 是满足 $\sqsupset z$ 和 $\sqsupset z$ 的字符串。如果 $\le |y|$ ，那么 $\sqsupset y$ ；如果 $\ge |y|$ ，那么 $\sqsupset x$ ；如果 $∣ x ∣ = ∣ y ∣$ ，那么 $x = y$ 。

Figure 32.2

为了符号简单，我们把模式 $P [1.. m]$ 由前 $k$ 个字符组成的前缀 $P [1.. k]$ 记作 $P_k$ 。因此 $P0=ε,Pm=P=P[1..m]P_0=\varepsilon,P_m=P=P[1..m]$ 。

32.1 朴素字符串匹配算法

朴素字符串匹配算法是通过一个循环找到所有有效偏移，判断条件为 $P [1.. m] = T [s + 1.. s + m]$ ，其中 $s$ 总共有 $n - m + 1$ 个可能的值。

NAIVE-STRING-MATCHER(T, P)
    n = T.length
    m = P.length
    for s = 0 to n-m
        if P[1..m] == T[s+1..s+m]
            print "Pattern occurs with shift" s