KMP (Knuth-Morris-Pratt) algorithm introduction to algorithm 3rd, example 32.4

本文介绍了KMP算法用于字符串匹配的过程,包括前缀数组的计算和算法的实现。通过实例演示了如何使用KMP算法在给定字符串中查找模式字符串,并提供了性能测试结果。

算法导论 第三版 32.4 KMP


//KMP (Knuth-Morris-Pratt) algorithm introduction to algorithm 3rd, example 32.4


#include <iostream>
#include <vector>
#include <algorithm>
#include <cassert>
#include <ostream>
#include <iterator>
#include <limits>
#include <complex>
#include "stopwatch.h"


std::vector<size_t> compute_prefix(const std::string & str)
{
    std::vector<size_t> prefix(str.size(), 0);
    size_t ip = 0;
    for (size_t is = 1; is < str.size(); ++is)
    {
        while (ip > 0 && str[ip] != str[is])
        {
            ip = prefix[ip-1];
        }
        if (str[ip] == str[is])
        {
            ++ip;
        }
        prefix[is] = ip;
    }

    return prefix;
}

std::vector<size_t> kmp_match(const std::string &s1, const std::string & s2, const std::vector<size_t> & prefixes)
{
    std::vector<size_t> indexes;
    size_t ip = 0;
    for (size_t is = 0; is < s1.size(); ++is)
    {
        while (ip > 0 && s1[is] != s2[ip])
        {
            ip = prefixes[ip-1];
        }

        if (s1[is] == s2[ip])
        {
            ++ip;
        }
        if (ip == prefixes.size())
        {
            ip = prefixes[ip-1];
            indexes.push_back(is);
        }
    }

    return indexes;
}

void test(std::string && s1, std::string && s2)
{
    std::cout << "Match " << s1 << "  with " << s2 << std::endl;
    Stopwatch watch;
    watch.start();
    auto prefixes = compute_prefix(s2);
    auto indexes = kmp_match(s1, s2, prefixes);
    watch.stop();
    std::cout << "prefix of " << s2 << " is ";
    std::copy(prefixes.begin(), prefixes.end(), std::ostream_iterator<size_t>(std::cout, " "));
    std::cout << std::endl;
    std::cout << "Match string at index ";
    std::copy(indexes.begin(), indexes.end(), std::ostream_iterator<size_t>(std::cout, " "));
    std::cout << " use time " << watch.elapsed() << " ms\n" << std::endl;
}

int main()
{
    std::cout << "start" << std::endl;
    test(std::string("aaababaabaababaab"), std::string("aabab"));
    test(std::string("bacbababacaabcbab"), std::string("ababaca"));
    test(std::string("aaabaabaabaabaabaab"), std::string("aabaab"));

    return 0;
}

<think>我们正在计算模式串"ababa"的Partial Match Table(PMT),也称为失配函数或next数组。 PMT的定义:对于模式串P[0..m-1],PMT[i]表示子串P[0..i]的最长相等真前缀和真后缀的长度(不包括整个子串)。 注意:真前缀和真后缀是指不包含整个字符串的前缀和后缀。 步骤: 1. 初始化:PMT[0] = 0,因为单个字符没有真前缀和真后缀。 2. 从i=1开始,计算每个位置i的PMT值。 模式串:a b a b a 位置0: P[0] = &#39;a&#39; PMT[0] = 0 [因为只有一个字符] 位置1: P[0..1] = "ab" 真前缀:["a"] 真后缀:["b"] 没有相等的,所以PMT[1]=0 位置2: P[0..2] = "aba" 真前缀:["a", "ab"] 真后缀:["a", "ba"] 相等的最长真前缀和真后缀是"a",长度为1,所以PMT[2]=1 位置3: P[0..3] = "abab" 真前缀:["a", "ab", "aba"] 真后缀:["b", "ab", "bab"] 相等的最长真前缀和真后缀是"ab",长度为2,所以PMT[3]=2 位置4: P[0..4] = "ababa" 真前缀:["a", "ab", "aba", "abab"] 真后缀:["a", "ba", "aba", "baba"] 相等的最长真前缀和真后缀有:"a"(长度1)和"aba"(长度3),取最长的3,所以PMT[4]=3 但是,我们通常要求真前缀和真后缀不能是整个字符串,这里"aba"作为真后缀时,它并不等于整个字符串(整个字符串是"ababa"),所以是允许的。 然而,我们检查一下: 真前缀:P[0..2] = "aba" (索引0到2) 真后缀:P[2..4] = "aba" (索引2到4) -> 注意:这个真后缀是从索引2到4,长度为3。 因此,PMT[4]=3。 但是,我们也可以使用递推的方法(利用已经计算出的PMT值)来计算,这样更高效。 递推方法: 设i=0时,PMT[0]=0。 令j=0(表示当前匹配的前缀长度),i从1到m-1(m为模式串长度): while j>0 and P[i] != P[j]: j = PMT[j-1] # 回退到前一个匹配位置 if P[i] == P[j]: j += 1 PMT[i] = j 按照递推方法计算: 初始化:PMT[0]=0, j=0, i=1 i=1: P[1]=&#39;b&#39;, P[j]=P[0]=&#39;a&#39; -> 不相等,且j=0,所以不进入while循环,然后比较不相等,所以PMT[1]=0,j保持0。 i=2: P[2]=&#39;a&#39;, P[j]=P[0]=&#39;a&#39; -> 相等,则j增加1,变为1,然后PMT[2]=j=1。 i=3: P[3]=&#39;b&#39;, P[j]=P[1]=&#39;b&#39; -> 相等,则j增加1,变为2,然后PMT[3]=2。 i=4: P[4]=&#39;a&#39;, P[j]=P[2]=&#39;a&#39; -> 相等,则j增加1,变为3,然后PMT[4]=3。 所以,递推方法得到的结果是:[0,0,1,2,3] 因此,模式串"ababa"的Partial Match Table为:[0,0,1,2,3] 注意:有时候next数组的定义会稍微不同,比如有些实现中会将整个PMT数组向右移动一位,并将next[0]设为-1,但这里我们计算的是标准的PMT。 所以,答案是:[0,0,1,2,3]</think>### KMP算法中模式串"ababa"的Partial Match Table计算 Partial Match Table(PMT)是KMP算法的核心组件,用于在匹配失败时确定模式串的滑动距离。PMT的值表示模式串前缀与后缀的最长匹配长度(不包括整个子串)。以下是模式串$P = \text{"ababa"}$的计算过程: #### 计算步骤: 1. **$i=0$**(子串"a") - 真前缀:空集 - 真后缀:空集 - 最长匹配长度:$0$ $\text{PMT}[0] = 0$ 2. **$i=1$**(子串"ab") - 真前缀:$["a"]$ - 真后缀:$["b"]$ - 无相同前后缀 $\text{PMT}[1] = 0$ 3. **$i=2$**(子串"aba") - 真前缀:$["a", "ab"]$ - 真后缀:$["a", "ba"]$ - 最长匹配:"a"(长度$1$) $\text{PMT}[2] = 1$ 4. **$i=3$**(子串"abab") - 真前缀:$["a", "ab", "aba"]$ - 真后缀:$["b", "ab", "bab"]$ - 最长匹配:"ab"(长度$2$) $\text{PMT}[3] = 2$ 5. **$i=4$**(子串"ababa") - 真前缀:$["a", "ab", "aba", "abab"]$ - 真后缀:$["a", "ba", "aba", "baba"]$ - 最长匹配:"aba"(长度$3$) $\text{PMT}[4] = 3$ #### 最终结果: 模式串$\text{"ababa"}$的PMT为: $$[0, 0, 1, 2, 3]$$ #### 递推公式验证(高效算法): ```python def compute_pmt(pattern): pmt = [0] * len(pattern) j = 0 # 最长匹配前缀的指针 for i in range(1, len(pattern)): while j > 0 and pattern[i] != pattern[j]: j = pmt[j-1] # 回退到前一个匹配位置 if pattern[i] == pattern[j]: j += 1 pmt[i] = j return pmt print(compute_pmt("ababa")) # 输出: [0, 0, 1, 2, 3] ``` 此算法通过动态规划复用已计算的PMT值,时间复杂度为$O(m)$($m$为模式串长度)[^1]。 --- ### 相关问题 1. KMP算法中PMT的作用是什么?如何利用它优化字符串匹配? 2. 对于模式串$\text{"aabaaab"}$,如何计算其Partial Match Table? 3. KMP算法与朴素字符串匹配算法的时间复杂度有何区别? 4. 在PMT计算过程中,为什么要求匹配的前后缀必须是真子串(即不能是完整子串)? [^1]: 基于KMP算法的经典实现,参考《算法导论》字符串匹配章节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值