KMP笔记（旧）

原创已于 2025-03-12 20:07:06 修改 · 870 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#算法

于 2025-03-12 20:06:00 首次发布

符号

子串：字符串中连续的一段。
$p re (s, x)$ : $s [1... x]$ 组成的子串。
$s u f (s, x)$ : $s [∣ s ∣ - x ...∣ s ∣]$ 组成的子串。
周期：若 $p$ 为字符串 $s$ 的周期，则 $p$ 满足
- $0 < p < ∣ s ∣$ .
- $\in \left\{1, 2, 3..., |s| - p \right\}$ .
$b or d er$ : 若 $p re (s, r)$ 称为字符串 $s$ 的 $b or d er$ ，则 $r$ 满足
- $0 < r < ∣ s ∣$ .
- $p re (s, r) = s u f (s, r)$

$p er i o d$ 与 $b or d er$

$3$ 和 $6$ 都是 $ab c ab c ab$ 的周期。
- 注意，一个周期不需要恰好能整除串长。
$ab c ab$ 和 $ab$ 都是 $ab c ab c ab$ 的 $b or d er$ 。
$p re (s, k)$ 是 $s$ 的 $b or d er$ $\Leftrightarrow$ $∣ s ∣ - k$ 是 $s$ 的周期。
- 画图，自证不难.

$b or d er$ 的性质

（传递性1）若 $S$ 是 $T$ 的 $b or d er$ , $T$ 是 $R$ 的 $b or d er$ , 则 $S$ 是 $R$ 的 $b or d er$ .
（传递性2）若 $S$ 是 $R$ 的 $b or d er$ , $T$ 是 $R$ 的 $b or d er$ , 且 $∣ S ∣ < ∣ T ∣$ ，则 $S$ 是 $T$ 的 $b or d er$ .
以上两点画图显然.
（封闭性）记 $mb (S)$ 为 $S$ 的最长 $b or d er$ ，则 $mb (mb (S)), mb (mb (mb (S))) ...$ 为 $S$ 的所有 $b or d er$ .
- 由传递性1、2 得.

KMP模式匹配

在主串 $S$ 中查找模式串 $T$ 第一次出现的位置。
- 暴力匹配 $O(|S|\cdot|T|)$ ,
考虑 $S$ 以 $i$ 结尾，长度为 $j$ 的子串 $S [i - j ... i]$ ，发现，字符串的任意子串总是该字符串的一个前缀的后缀，即 $S [i - j ... i] = s u f (p re (S, i), j)$ .
观察暴力匹配的过程，我们用两个指针 $i, j$ ，分别对应在 $S, T$ 中扫描。
- 每次扫描开始时，都应有 $S [i ... i + j] = s u f (p re (S, i + j), j) = p re (T, j)$
- 若 $S [i + j + 1] = T [j + 1]$ ，则将 $j$ 往后移一位.
- 若 $\neq T[j + 1]$ ，则将 $i$ 往后移一位， $j$ 从头开始扫描.
- 复杂度为 $O(|S|\cdot|T|)$ .
暴力慢在哪呢？慢在 $i, j$ 往后移的步骤上。如果我们能够跳过一些肯定匹配不上的位置，或许能更快！
这时，K、M、P 三人提出了一个KMP策略 :
- 我们用两个指针 $i, j$ 分别表示, $S [i - j + 1... i]$ 与 $T [1... j]$ 完全相等,即 $S$ 匹配到 $i$ , $T$ 匹配到 $j$ .
- 首先介绍 KMP性质: 每次扫描开始时，都应有 $s u f (p re (S, i), j) = p re (T, j)$ , 且 $j$ 越大越好.
- 若 $S [i + 1] = T [j + 1]$ ，则将 $i$ , $j$ 各往后移一位，满足KMP性质.
- 若 $\neq T[j + 1]$ ，也就是失配了，我们该怎么调整指针来避免每次都重新开始匹配呢？
  1. 由 KMP性质，我们知道此时的 $i, j$ 肯定满足 $s u f (p re (S, i), j) = p re (T, j)$ ，因而它们的 $b or d er$ 也相同.
  2. 于是，我们每次将 $j$ 跳跃到 $p re (T, j)$ 当前最长的 $b or d er$ 上，不难发现若能匹配下去，这个最长的 $b or d er$ 一定能匹配得最长，且满足 KMP性质.
  3. 如果还是不能匹配，接着跳 $b or d er$ ，直到 $j = - 1$ .
  4. 结合封闭性，我们只需求出 $T$ 每个前缀的最长 $b or d er$ 就可以快速进行上述步骤.
- 记 $p re (T, j)$ 的最长 $b or d er$ 为 $n e x t [j]$ ，以下是利用 $n e x t$ 数组匹配的代码。

int kmp(string s, string t) {
    int n = s.size(), m = t.size();
    int j = -1;
    for (int i = 0; i < n; i++) {
        while (j >= 0 && s[i] != t[j + 1]) j = next[j];
        if (s[i] == t[j + 1]) j++;
        if (j + 1 == m) { //匹配成功
            return i - m + 1;
        }
    }
    return -1; //匹配失败
}

$j$ 后移的次数最多为 $∣ T ∣$ ， $j$ 回退的次数总是少于后移的次数，因而匹配复杂度摊还 $O (∣ S ∣)$ .
把子串看作一个前缀的真后缀，不难发现求解 $n e x t$ 的方法与匹配类似，以下是求解 $n e x t$ 的代码.

void init(string t) {
    int m = t.size();
    next[0] = -1;
    int j = -1;
    for (int i = 1; i < m; i++) {
        while (j >= 0 && t[i] != t[j + 1]) j = next[j];
        if (t[i] == t[j + 1]) j++;
        next[i] = j;
    }
}

预处理 $n e x t$ 的复杂度摊还 $O (∣ T ∣)$ ，因此总复杂度 $O (∣ S ∣ + ∣ T ∣)$ .
注意：我习惯以 $0$ 为字符串下标的起点，因此 $n e x t$ 的初值赋为 $- 1$ ，在调用 $b or d er$ 长度时应加上 $1$ 。
虽然蛮讨厌的，但在构造失配树的时候下标最好还是从 $1$ 开始。

失配树

定义：将 $n e x t [i]$ 看作 $i$ 的父节点，那么通过 $n e x t$ 数组可以把 $0\sim N$ 点连成一棵树。
性质：
- 点 $i$ 的所有祖先都是 $p re (s, i)$ 的 $b or d er$ .
- 没有祖先关系的两个点 $i, j$ 没有 $b or d er$ 关系.
- 任意两点的 $L C A$ 为它们的最长公共 $b or d er$ .
结合失配树，计算 $n e x t [i]$ 的过程可以看作：从 $j = f a [i - 1]$ 开始不断往上走，找第一个满足 $s [j + 1] = s [i]$ 的点，把 $i$ 的父亲设为 $j + 1$ .
- 为什么是这样呢？
- 考虑失配树的定义， $\Leftrightarrow$ $s [0... j]$ 是 $p re (s, i - 1)$ 的最长 $b or d er$ .
- 又因为 $f a [j]$ 是 $p re (s, j)$ 的最长 $b or d er$ ，所以向上走寻找匹配的过程就是利用 KMP策略求 $n e x t [i]$ 的过程.
代码就不放了。

例题

【例1】P4391 [BOI2009]Radio Transmission 无线传输
- 题意简述：求一个串的最小周期。
- 由上文提到的 “ $p er i o d$ 与 $b or d er$ 的关系”，我们知道最小周期为串长减去最长的 $b or d er$ .
- 回想 $n e x t$ 数组的定义，此题得解.
【例2】P3435 [POI2006] OKR-Periods of Words
- 题意简述：求一个串所有前缀的最大周期。
- 最大周期即为串长减去最短的 $b or d er$ ，求出最短的 $b or d er$ 就万事大吉了.
- 回想失配树的性质，最短的 $b or d er$ 不就是该点到根的路径上离根最近的点吗？想到这里就有很多搞法了.
- 可以建出失配树，然后枚举失配树的每一个儿子，从每一个儿子出发往下跑一遍 $df s$ ，由于每个节点只会被遍历一次，故复杂度是 $O (n)$ 的.
- 也可以利用并查集思想，把每一个与根节点直接相连的儿子作为代表元，路径压缩后即可快速查询.
【例3】POJ2185 Milking Grid
- 题意简述：求一个二维字符矩阵的最小周期。
- 行列分别跑一次 KMP，在跑列的 KMP 时，把每行看作一个整体，每次检验时暴力检验所有行。行方向 KMP 同理。复杂度 $\times M)$
【例4】P2375 [NOI2014] 动物园
- 题意简述：求出一个串每一个前缀的 $b or d er$ 中，长度不超过该前缀长度一半的 $b or d er$ 的数量。
- 上失配树，每个节点 $i$ 都倍增跳到第一个满足 $\leq i/2$ 的点 $j$ 上，然后统计。时间 $O (T n l o g n)$ ，常数小的做法可以卡过.
【例5】P3426 [POI2005]SZA-Template
- 题意简述：求字符串最小的一个前缀，使得它拼接（可以重叠）若干次后恰好能还原字符串。
- 若 $p re (s, i)$ "恰好"能还原原串，说明该长度为 $i$ 的前缀与长度为 $i$ 的后缀是相同的，也就是说答案是一个 $b or d er$ .
- 那只要是 $b or d er$ ，就一定能还原吗？不是，该 $b or d er$ 在原串中匹配的位置之间间隔不能超过 $b or d er$ 的长度.
- 于是就有了很多想法。
- 一种是上失配树，那么符合条件的 $b or d er$ 一定是 $∣ s ∣$ 的祖先节点.
- 枚举 $∣ s ∣$ 的所有祖先，设当前在点 $i$ ，那么 $i$ 的子树中相邻节点的距离不能超过 $i$ ，否则就会空出一段.
- 另一种想法是直接 $d p$ ，设 $f_i$ 是覆盖 $p re (s, i)$ 的最小 $b or d er$ ，则 $f_i$ 只有 $2$ 种取值： $i$ 或 $f_{next_i}$ .
- 为什么是 $f_{next_i}$ 呢？由上面的分析我们知道 $f_i \leq next_i$ ，凡是不能覆盖 $next_i$ 的，一定覆盖不了 $p re (s, i)$ ，因此 $f_i$ 只能由 $f_{next_i}$ 转移过来.
- 那么什么时候 $f_i$ 能从 $f_{next_i}$ 转移呢？因为 $b or d er$ 在原串中匹配的位置之间间隔不能超过 $b or d er$ 的长度，因此，只有存在一个 $j$ ，满足 $next_i \leq j$ 且 $f_j$ 是由 $f_{next_i}$ 转移来的时候， $f_i$ 才能等于 $f_{next_i}$ .
- 开个桶记录一下最后一个 $f_i = f_{next_i}$ 的位置即可做到 $O (n)$ .