aho-corasick自动机
1、图示

2、原理:实质是KMP算法在多模式串匹配的扩展,首先构造TRIE树,然后以层次遍历序访问该树,在TRIE树的基础上构造A-C自动机。
其中F(q)表示:
1)q是个终结状态,如果q对应一个完整的字符串,则称q为终结状态
2)F(q)包括了模式串集合P中,q所对应的该集合的子集的字符串
3、构造代码

基本的算法

二、高级算法
1、对供给函数S的状态转移预先进行计算,对于字母表的每个字符,所有状态都有相应的转移。
2、这种完全的自动机可以由供给函数计算出来,首先,对于字母表中的每个字符σ如果δ(0,σ)=θ,然后按层次遍历的方式访问自动机,设当前状态为current,如果δ(current,σ)=θ,则置δ(current,σ)=δ(SAC(current),σ)
3、不足之处,需要巨大的存储空间
本文介绍了Aho-Corasick自动机的基本原理及构造方法。它作为KMP算法在多模式串匹配上的扩展,通过构建TRIE树并在此基础上构造A-C自动机来实现高效查找。文中还探讨了如何预计算供给函数以提高状态转移效率。
486

被折叠的 条评论
为什么被折叠?



