一、AC自动机的背景与问题定义
1.1 问题描述
假设你有一个文本串 TTT(主串,长度为 nnn)和一组模式串 P1,P2,…,PkP_1, P_2, \dots, P_kP1,P2,…,Pk(总长度为 mmm),目标是在 TTT 中找出所有模式串的出现位置。朴素的方法是对每个模式串单独运行KMP算法,时间复杂度为 O(n⋅k)O(n \cdot k)O(n⋅k),当模式串数量 kkk 很大时效率低下。
AC自动机的目标是解决多模式匹配问题,通过一次扫描文本串 TTT,在 O(n+m)O(n + m)O(n+m) 的时间内完成所有模式串的匹配,其中:
- mmm 是所有模式串的总长度(构建自动机的时间)。
- nnn 是文本串的长度(匹配过程的时间)。
1.2 AC自动机的核心思想
AC自动机结合了:
- Trie树:将所有模式串存储在一个前缀树中,便于快速查找。
- KMP的失配指针:通过构建“失败指针”(failure link),在匹配失败时快速跳转到其他可能的匹配状态。
- 状态机:将匹配过程抽象为一个确定性有限自动机(DFA),每个状态表示当前匹配的前缀。
它的核心优势是一次扫描,多次匹配,避免了对每个模式串单独处理。
二、AC自动机的结构与原理
AC自动机由三部分组成:
- Trie树:存储所有模式串。
- 失败指针(Failure Link):用于处理匹配失败时的跳转。
- 输出集合(Output Link):记录每个状态对应的模式串。
2.1 Trie树的构建
Trie树(前缀树)是AC自动机的基础,用于存储所有模式串。构建过程如下:
- 节点结构:每个节点包含:
- 一个字符(或字符集索引)。
- 子节点指针(通常用数组或哈希表表示,例如
children[c])。 - 是否为模式串的终点(标记为
is_end,记录模式串编号或直接标记)。
- 插入过程:
- 从根节点开始,对于模式串 Pi=c1c2…clP_i = c_1c_2\dots c_lPi=c1c2…cl,依次遍历每个字符 cjc_jcj.
- 如果当前节点的子节点中不存在字符 cjc_jcj,则新建一个节点。
- 移动到子节点,继续处理下一个字符。
- 在模式串的最后一个字符对应的节点,标记为终点(
is_end = true或记录模式串编号)。
时间复杂度:插入所有模式串的总时间为 O(m)O(m)O(m),其中 mmm 是所有模式串的总长度。
示例:
假设模式串为 {he, she, his, hers},构建的Trie树如下:
root
/ | \
h s h
/ \ |
e i h
/ \ |
s e r
| |
s
- 节点
he和she的e是终点,标记模式串he和she. - 节点
his的s是终点,标记模式串his. - 节点
hers的s是终点,标记模式串hers.
2.2 失败指针(Failure Link)
失败指针是AC自动机的核心,用于在匹配失败时快速跳转到其他可能的匹配状态。它的定义是:
- 对于Trie树中的一个节点 uuu,其失败指针 fail(u)fail(u)fail(u) 指向另一个节点 vvv,使得 vvv 表示的字符串是 uuu 表示的字符串的最长后缀,且 vvv 仍在Trie树中。
- 特殊情况:
- 根节点的失败指针指向自身(或空)。
- 深度为1的节点的失败指针指向根节点。
构建失败指针:
失败指针的构建通常通过**广度优先搜索(BFS)**完成,具体步骤如下:
- 初始化:
- 根节点的失败指针指向自身:fail(root)=rootfail(root) = rootfail(root)=root.
- 根节点的直接子节点(深度为1)的失败指针指向根节点。
- 使用队列进行BFS:
- 按层序遍历Trie树的所有节点。
- 对于当前节点 uuu,假设其对应的字符为 ccc,父节点为 ppp,我们需要计算 fail(u)fail(u)fail(u).
- 令 v=fail(p)v = fail(p)v=fail(p),即父节点的失败指针。
- 检查 vvv 是否有子节点对应字符 ccc:
- 如果有,则 fail(u)=v→children[c]fail(u) = v \to children[c]fail(u)=v→children[c].
- 如果没有,则继续令 v=fail(v)v = fail(v)v=fail(v),重复检查,直到找到或到达根节点。
- 如果最终到达根节点且没有找到,则 fail(u)=rootfail(u) = rootfail(u)=root.
- 同时更新输出集合(稍后介绍)。
时间复杂度:BFS遍历所有节点,假设字符集大小为 σ\sigma

最低0.47元/天 解锁文章
1752

被折叠的 条评论
为什么被折叠?



