AC自动机学习小记

本文介绍了AC自动机,一种多模式匹配算法,源于1975年的贝尔实验室。AC自动机结合了KMP算法和Trie数据结构,通过失配指针fail实现高效匹配。文章详细讲解了算法步骤,包括构建Trie、处理fail指针和进行匹配过程,并提供了代码实例。同时,讨论了算法的时间复杂度为O(n+∑mi=1length(si))。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

算法简介

AC自动机,英文AhoCorasick automaton。1975年产生于贝尔实验室,是著名的多模式匹配算法之一。


必备技能

KMP算法,Trie(字典树)。


算法分析

AC自动机其实就是将所有模式串放进一颗Trie里,再进行KMP算法。
学过KMP算法的都知道,KMP算法是借助失配函数next将模式匹配的复杂度降到O(n+m),而AC自动机也有失配指针fail担任相似的任务。
KMP算法中,设模式串为snexti满足s1..nexti=sinexti+1..i且最大。而AC自动机中,faili满足Trie中从根节点到faili组成的字符串是从根节点到i组成的字符串的后缀,且深度最大。


算法步骤

  1. 先将所有模式串存进Trie里面,注意在每个模式串结尾的结点做标记。
    • 用一次BFS处理出Trie上所有节点的fail指针。
    • 将匹配串在Trie中进行匹配,走得了就走,走不了就不停往faili跳,直到能继续走或是到达root(我的实现方法直接将原本没有的儿子赋值为第一个能走的位置,这样写更加优美)。确定当前位置后,用temp指针从当前匹配位置开始,不停往failtemp跳,直到到达roottemp在移动过程中,不停统计答案,并根据题目需要修改节点的权值(如果不允许重复计数,那就将该节点权值清0)。这样做是为了避免遗漏单词。

具体细节见代码实现。


代码实现

注:以下代码对应题目HDU2222 Keywords Search。是一道AC自动机模板题,大家可以去练一下。
题目大意
给出若种模式串和一个匹配串,求匹配串中出现了多少种模式串。

#include <iostream>
#include <cstring>
#include <cstdio>
#include <queue>

using namespace std;

const int N=10005;
const int S=1000000;
const int L=26;

char rdstr[S+1];
int n,ans,cas;
queue<int> Q;

struct AC_automation
{
    int fail[N*50+1],sum[N*50+1],next[N*50+1][L];
    int tot,root;

    int newnode()
    {
        for (int i=0;i<L;i++)
            next[tot][i]=-1;
        fail[tot]=sum[tot]=0;
        return tot++;
    }

    int init()
    {
        tot=0;
        root=newnode();
    }

    void insert(char str[])
    {
        int rt=root,len=strlen(str);
        for (int i=0;i<len;i++)
        {
            if (next[rt][str[i]-'a']==-1)
                next[rt][str[i]-'a']=newnode();
            rt=next[rt][str[i]-'a'];
        }
        sum[rt]++;
    }

    void build()
    {
        fail[root]=root;
        for (int i=0;i<L;i++)
            if (next[root][i]==-1)
                next[root][i]=root;
            else
            {
                fail[next[root][i]]=root;
                Q.push(next[root][i]);
            }
        while (!Q.empty())
        {
            int x=Q.front();
            Q.pop();
            for (int i=0;i<L;i++)
                if (next[x][i]==-1)
                    next[x][i]=next[fail[x]][i];
                else
                {
                    fail[next[x][i]]=next[fail[x]][i];
                    Q.push(next[x][i]);
                }
        }
    }

    int query(char str[])
    {
        int rt=root,len=strlen(str),tmp,ret=0;
        for (int i=0;i<len;i++)
        {
            rt=next[rt][str[i]-'a'];
            tmp=rt;
            while (tmp!=root)
            {
                ret+=sum[tmp];
                sum[tmp]=0;
                tmp=fail[tmp];
            }
        }
        return ret;
    }
}acam;

int read()
{
    int x=0,f=1;
    char ch=getchar();
    while (ch<'0'||ch>'9')
    {
        if (ch=='-')
            f=-1;
        ch=getchar();
    }
    while (ch>='0'&&ch<='9')
    {
        x=x*10+ch-'0';
        ch=getchar();
    }
    return x*f;
}

int main()
{
    freopen("keyword.in","r",stdin);
    freopen("keyword.out","w",stdout);
    cas=read();
    while (cas)
    {
        n=read();
        acam.init();
        for (int i=1;i<=n;i++)
        {
            scanf("%s",rdstr);
            acam.insert(rdstr);
        }
        acam.build();
        scanf("%s",rdstr);
        ans=acam.query(rdstr);
        printf("%d\n",ans);
        cas--;
    }
    fclose(stdin);
    fclose(stdout);
    return 0;
}

经过struct封装的AC自动机代码十分优美。
有些题目可能需要时间换空间,就是用模拟链表代替上面的26个数的数组连边,具体实现大家自行脑补。


时间复杂度

设匹配串长度为n,模式串共m个,第i个记为si
可以证明AC自动机时间复杂度为O(n+mi=1length(si))
具体证明我也不会QAQ。感性理解吧!
证明方法应该和KMP算法的时间复杂度证明相似。分析每个变量运算次数,下去自行脑补吧。

添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值