算法简介
AC自动机,英文Aho−Corasick automaton。1975年产生于贝尔实验室,是著名的多模式匹配算法之一。
必备技能
KMP算法,Trie(字典树)。
算法分析
AC自动机其实就是将所有模式串放进一颗Trie里,再进行KMP算法。
学过KMP算法的都知道,KMP算法是借助失配函数next将模式匹配的复杂度降到O(n+m),而AC自动机也有失配指针fail担任相似的任务。
在KMP算法中,设模式串为s,
算法步骤
- 先将所有模式串存进
Trie 里面,注意在每个模式串结尾的结点做标记。- 用一次BFS处理出Trie上所有节点的fail指针。
- 将匹配串在Trie中进行匹配,走得了就走,走不了就不停往faili跳,直到能继续走或是到达root(我的实现方法直接将原本没有的儿子赋值为第一个能走的位置,这样写更加优美)。确定当前位置后,用temp指针从当前匹配位置开始,不停往failtemp跳,直到到达root。temp在移动过程中,不停统计答案,并根据题目需要修改节点的权值(如果不允许重复计数,那就将该节点权值清0)。这样做是为了避免遗漏单词。
具体细节见代码实现。
代码实现
注:以下代码对应题目HDU2222 Keywords Search。是一道
题目大意
给出若种模式串和一个匹配串,求匹配串中出现了多少种模式串。
#include <iostream>
#include <cstring>
#include <cstdio>
#include <queue>
using namespace std;
const int N=10005;
const int S=1000000;
const int L=26;
char rdstr[S+1];
int n,ans,cas;
queue<int> Q;
struct AC_automation
{
int fail[N*50+1],sum[N*50+1],next[N*50+1][L];
int tot,root;
int newnode()
{
for (int i=0;i<L;i++)
next[tot][i]=-1;
fail[tot]=sum[tot]=0;
return tot++;
}
int init()
{
tot=0;
root=newnode();
}
void insert(char str[])
{
int rt=root,len=strlen(str);
for (int i=0;i<len;i++)
{
if (next[rt][str[i]-'a']==-1)
next[rt][str[i]-'a']=newnode();
rt=next[rt][str[i]-'a'];
}
sum[rt]++;
}
void build()
{
fail[root]=root;
for (int i=0;i<L;i++)
if (next[root][i]==-1)
next[root][i]=root;
else
{
fail[next[root][i]]=root;
Q.push(next[root][i]);
}
while (!Q.empty())
{
int x=Q.front();
Q.pop();
for (int i=0;i<L;i++)
if (next[x][i]==-1)
next[x][i]=next[fail[x]][i];
else
{
fail[next[x][i]]=next[fail[x]][i];
Q.push(next[x][i]);
}
}
}
int query(char str[])
{
int rt=root,len=strlen(str),tmp,ret=0;
for (int i=0;i<len;i++)
{
rt=next[rt][str[i]-'a'];
tmp=rt;
while (tmp!=root)
{
ret+=sum[tmp];
sum[tmp]=0;
tmp=fail[tmp];
}
}
return ret;
}
}acam;
int read()
{
int x=0,f=1;
char ch=getchar();
while (ch<'0'||ch>'9')
{
if (ch=='-')
f=-1;
ch=getchar();
}
while (ch>='0'&&ch<='9')
{
x=x*10+ch-'0';
ch=getchar();
}
return x*f;
}
int main()
{
freopen("keyword.in","r",stdin);
freopen("keyword.out","w",stdout);
cas=read();
while (cas)
{
n=read();
acam.init();
for (int i=1;i<=n;i++)
{
scanf("%s",rdstr);
acam.insert(rdstr);
}
acam.build();
scanf("%s",rdstr);
ans=acam.query(rdstr);
printf("%d\n",ans);
cas--;
}
fclose(stdin);
fclose(stdout);
return 0;
}
经过struct
封装的AC自动机代码十分优美。
有些题目可能需要时间换空间,就是用模拟链表代替上面的26个数的数组连边,具体实现大家自行脑补。
时间复杂度
设匹配串长度为n,模式串共
可以证明AC自动机时间复杂度为O(n+∑mi=1length(si))。
具体证明我也不会QAQ。感性理解吧!
证明方法应该和KMP算法的时间复杂度证明相似。分析每个变量运算次数,下去自行脑补吧。