简介:AC自动机:Aho-Corasick automation,又称trie图,是一种DFA,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一。解决的问题:一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过。要搞懂AC自动机,先得有字典树Trie和KMP模式匹配算法的基础知识。
AC自动机的构造:
1.建立一棵字典树,作为ac自动机的搜索数据结构。
2.构造fail指针,使当前字符失配时跳转到具有最长公共前后缀的字符继续匹配。
3.扫描主串进行匹配。
前缀(失败)指针:
仿照KMP算法的Next数组,我们也对树上的每一个节点建立一个前缀指针。这个前缀指针的定义和KMP算法中的next数组相类似,从根节点沿边到节点p我们可以得到一个字符串S,节点p的前缀指针定义为:指向树中出现过的S的最长的后缀(不能等于S)。
如何高效的构造出前缀指针呢?
步骤为:根据深度一一求出每一个节点的前缀指针。对于当前节点,设他的父节点与他的边上的字符为X,如果他的父节点的前缀指针所指向的节点的儿子中,有通过X字符指向的儿子,那么当前节点的前缀指针指向该儿子节点,否则通过当前节点的父节点的前缀指针所指向点的前缀指针,继续向上查找,直到到达根节点为止。
如何在已经建立好的trie图上遍历呢?
以上的字典树+前缀指针就是确定性有限状态自动机的树形结构图(即trie图)的基本构造方式了。
接下来要解决的问题是,已知一个串S,如何利用这个串在当前已经建立好的trie图上进行遍历,看其是否包含某个模式串,以及其时间复杂度。
危险节点的概念:
1)终止节点是危险节点
2) 如果一个节点的前缀指针指向终止结点,那么它也是危险节点。
如何在已经建立好的trie图上遍历呢?
遍历的方法如下:从ROOT出发,按照当前串的下一个字符ch来进行在树上的移动。若当前点P不存在通过ch连接的儿子,那么考虑P的前缀指针指向的节点Q,如果还无法找到通过ch连接的儿子节点,再考虑Q的前缀指针…直到找到通过ch连接的儿子,再继续遍历。如果遍历过程中经过了某个终止节点,则说明S包含该终止节点代表的模式串.
如果遍历过程中经过了某个非终止节点的危险节点,则可以断定S包含某个模式串。要找出是哪个,沿着危险节点的前缀指针链走,碰到终止节点即可。
这样遍历一个串S的时间复杂度是O(len(S))
经过基本理解后,那就看一个例题吧~
HDU2222
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2222
题目大意:
给你很多个单词,然后给你一篇文章,问给出的单词在文章中出现的次数。
代码:
#include<iostream>
#include<cstdio>
#include<cstring>
#include<string>
using namespace std;
#define N 1000010
char str[N], keyword[N];
int head, tail;
struct node
{
node *fail;
node *next[26];
int count;
node() //init
{
fail = NULL;
count = 0;
for(int i = 0; i < 26; ++i)
next[i] = NULL;
}
}*q[N];
node *root;
void insert(char *str) //建立Trie
{
int temp, len;
node *p = root;
len = strlen(str);
for(int i = 0; i < len; ++i)
{
temp = str[i] - 'a';
if(p->next[temp] == NULL)
p->next[temp] = new node();
p = p->next[temp];
}
p->count++;
}
void build_ac() //初始化fail指针,BFS
{
q[tail++] = root;
while(head != tail)
{
node *p = q[head++]; //弹出队头
node *temp = NULL;
for(int i = 0; i < 26; ++i)
{
if(p->next[i] != NULL)
{
if(p == root) //第一个元素fail必指向根
p->next[i]->fail = root;
else
{
temp = p->fail; //失败指针
while(temp != NULL) //2种情况结束:匹配为空or找到匹配
{
if(temp->next[i] != NULL) //找到匹配
{
p->next[i]->fail = temp->next[i];
break;
}
temp = temp->fail;
}
if(temp == NULL) //为空则从头匹配
p->next[i]->fail = root;
}
q[tail++] = p->next[i]; //入队
}
}
}
}
int query() //扫描
{
int index, len, result;
node *p = root; //Tire入口
result = 0;
len = strlen(str);
for(int i = 0; i < len; ++i)
{
index = str[i] - 'a';
while(p->next[index] == NULL && p != root) //跳转失败指针
p = p->fail;
p = p->next[index];
if(p == NULL)
p = root;
node *temp = p; //p不动,temp计算后缀串
while(temp != root && temp->count != -1)
{
result += temp->count;
temp->count = -1;
temp = temp->fail;
}
}
return result;
}
int main()
{
int t,num;
scanf("%d\n",&t);
while(t--)
{
head= tail = 0;
root = new node();
scanf("%d", &num);
getchar();
for(int i = 0; i < num; ++i)
{
scanf("%s",keyword);
insert(keyword);
}
build_ac();
scanf("%s", str);
printf("%d\n",query());
}
return 0;
}