最近在温习算法方面的基础知识,看到网络上有很多关于KMP的文章,不过与算法(Sedgewick)中所描述的有所不同,因此在这里做个简要地说明,方便今后回忆,不足之处请谅解。
- 网上大部分文章,主要是围绕着“前缀”,“后缀”和next[]数组展开的。而书中则使用DFA来表达字符串的匹配过程。如下图(书中配图):
- 文本不断的输入,DFA的状态也随之改变,当到达状态6时,标示匹配结束。如果文本结束了,但是状态不为6则说明匹配失败。
在这个过程中,没有字符串的比较!请注意,仅仅是输入字符,并进行相应的状态转换,匹配模式本身并没有与文本进行比较,只是参与了构建DFA的过程!因此构建过程就成为了关键。
先给出DFA构建完成的结果如下图:
看看怎么去理解它:
ABABAC是匹配模式,ABC是输入的文本的可能值。当开始匹配时,状态为0,那么如果输入的值是A,则转态转换成1;如果是B则依然是0。以此类推,和DFA图中所描绘的是一样的。接下来就是如何创建这个二维表了。这里要加入一个DFA系统重启状态的概念,什么意思呢,就是当模式匹配失败的时候,要从DFA中的哪个状态重启,继续匹配。很显然,在匹配最开始的时候,如果失败了,当然是从0开始,那么接下来,这重启状态该如何转变呢?答案是:根据DFA状态。
如上图二维表,第一列,我们先初始化第一列为 1,0,0(A=A因此第