KMP

KMP算法详解
本文详细介绍KMP算法的实现原理及代码实现,通过实例演示如何利用KMP算法进行字符串匹配,包括首次出现位置的查找和匹配次数的统计。
/*
pku3461(Oulipo), hdu1711(Number Sequence)
这个模板 字符串是从0开始的
Next数组是从1开始的
 
求T串是否为S串的子串?
主串为 abdabdabc    S串   
模式串 abdabc       T串
S[0]=T[0] S[1]=T[1],S[2]=T[2]...S[4]=T[4]
S[5]!=T[5] 一般情况下重新匹配S[1]和T[0]
KMP情况下,匹配S[5]和T[2].
 
aewasdaw 前缀是包含第一个字符的子串,比如:a,ae,aew,aewa
         后缀是包含最后一个字符的子串,比如w,aw,daw,sdaw.
Next[k]数组表示前k个字符的前缀和后缀的最大公共长度,也表示下标为k的字符匹配失败后,下一次匹配的下标,等于-1时,代表该字符的匹配已经结束。
KMP中涉及的前缀和后缀不包括整个字符串,
*/
#include <cstdio>
#include <iostream>
#include <cstring>
using namespace std;

const int N = 1000002;
int Next[N];
char S[N], T[N];
int slen, tlen;//注意每次一定要计算长度

void getNext()
{
    int j, k;
    j = 0; k = -1; Next[0] = -1;
    while(j < tlen)
        if(k == -1 || T[j] == T[k])
            Next[++j] = ++k;
        else
            k = Next[k];

}
/*
返回模式串T在主串S中首次出现的位置
返回的位置是从0开始的。
*/
int KMP_Index()
{
    int i = 0, j = 0;
    getNext();

    while(i < slen && j < tlen)
    {
        if(j == -1 || S[i] == T[j])
        {
            i++; j++;
        }
        else
            j = Next[j];
    }
    if(j == tlen)
        return i - tlen;
    else
        return -1;
}
/*
返回模式串在主串S中出现的次数
*/
int KMP_Count()
{
    int ans = 0;
    int i, j = 0;

    if(slen == 1 && tlen == 1)
    {
        if(S[0] == T[0])
            return 1;
        else
            return 0;
    }
    getNext();
    for(i = 0; i < slen; i++)
    {
        while(j>=0 && S[i] != T[j])
            j = Next[j];
        if(j==-1||S[i] == T[j])
            j++;
        if(j == tlen)
        {
            ans++;
            j = Next[j];
        }
    }
    return ans;
}
int main()
{

    int TT;
    int i, cc;
    scanf("%d",&TT);
    while(TT--)
    {
        scanf("%s",S);
        scanf("%s",T);
        slen = strlen(S);
        tlen = strlen(T);
        cout<<"模式串T在主串S中首次出现的位置是: "<<KMP_Index()<<endl;
        cout<<"模式串T在主串S中出现的次数为: "<<KMP_Count()<<endl;
    }
    return 0;
}
/*
test case
aaaaaa a
abcd d
aabaa b
*/

我们这里说的KMP不是拿来放电影的(虽然我很喜欢这个软件),而是一种算法。KMP算法是拿来处理字符串匹配的。换句话说,给你两个字符串,你需要回答,B串是否是A串的子串(A串是否包含B串)。比如,字符串A="I'm matrix67",字符串B="matrix",我们就说B是A的子串。你可以委婉地问你的MM:“假如你要向你喜欢的人表白的话,我的名字是你的告白语中的子串吗?” 解决这类问题,通常我们的方法是枚举从A串的什么位置起开始与B匹配,然后验证是否匹配。假如A串长度为n,B串长度为m,那么这种方法的复杂度是O (mn)的。虽然很多时候复杂度达不到mn(验证时只看头一两个字母就发现不匹配了),但我们有许多“最坏情况”,比如,A= "aaaaaaaaaaaaaaaaaaaaaaaaaab",B="aaaaaaaab"。我们将介绍的是一种最坏情况下O(n)的算法(这里假设 m<=n),即传说中的KMP算法。 之所以叫做KMP,是因为这个算法是由Knuth、Morris、Pratt三个提出来的,取了这三个人的名字的头一个字母。这时,或许你突然明白了AVL 树为什么叫AVL,或者Bellman-Ford为什么中间是一杠不是一个点。有时一个东西有七八个人研究过,那怎么命名呢?通常这个东西干脆就不用人名字命名了,免得发生争议,比如“3x+1问题”。扯远了。 个人认为KMP是最没有必要讲的东西,因为这个东西网上能找到很多资料。但网上的讲法基本上都涉及到“移动(shift)”、“Next函数”等概念,这非常容易产生误解(至少一年半前我看这些资料学习KMP时就没搞清楚)。在这里,我换一种方法来解释KMP算法。
### KMP算法详解 KMP(Knuth-Morris-Pratt)算法是一种高效的字符串匹配算法,用于在一个主串中快速找到模式串的位置。其核心思想在于通过预处理模式串构建部分匹配表(Partial Match Table, PMT),从而减少不必要的字符比较次数。 #### 部分匹配表的计算 部分匹配表记录了模式串前缀和后缀的最大重叠长度。具体来说,对于模式串 `P` 的每个位置 `i`,计算最长相等前后缀的长度并存入数组 `next[i]` 中[^1]。 以下是部分匹配表的构造方法: ```python def compute_next(pattern): n = len(pattern) next_array = [0] * n # 初始化 next 数组 j = 0 # 前缀指针 for i in range(1, n): # 后缀指针从第二个字符开始遍历 while j > 0 and pattern[j] != pattern[i]: j = next_array[j - 1] if pattern[j] == pattern[i]: j += 1 next_array[i] = j # 记录当前最大公共前后缀长度 return next_array ``` #### 字符串匹配过程 基于已构建的部分匹配表,可以高效完成字符串匹配操作。当遇到失配时,无需回退主串指针,而是依据部分匹配表调整模式串起始位置继续匹配。 下面是完整的 KMP 算法实现: ```python def kmp_search(text, pattern): m = len(text) n = len(pattern) next_array = compute_next(pattern) # 构建部分匹配表 matches = [] j = 0 # 模式串索引 for i in range(m): # 主串索引 while j > 0 and text[i] != pattern[j]: j = next_array[j - 1] if text[i] == pattern[j]: j += 1 if j == n: # 找到匹配子串 matches.append(i - n + 1) j = next_array[j - 1] # 继续寻找下一个可能的匹配 return matches ``` --- ### KMP算法在OFDM中的应用 正交频分复用(Orthogonal Frequency Division Multiplexing, OFDM)是一种广泛应用于现代通信系统的调制技术。它将信道划分为多个相互正交的子载波,在这些子载波上传输数据。为了提高传输效率和抗干扰能力,OFDM通常会引入同步机制以及训练序列来辅助接收端解码。 KMP算法可以在以下几个方面与OFDM相结合: #### 1. **训练序列检测** 在OFDM系统中,发送端会在帧头插入特定的训练序列以便于接收端进行同步和信道估计。由于训练序列具有固定的结构特征,因此可以通过KMP算法快速定位该序列在接收到的数据流中的位置[^2]。 例如,假设训练序列为 `"ABCD"`,而接收到的一段信号表示为一维采样值 `[..., A', B', C', D', ...]`,则可将其离散化后再运用KMP算法执行精确匹配。 #### 2. **符号边界识别** 除了训练序列外,某些标准还规定了特殊的标志位用来指示每一段有效负载的起点和终点。同样地,借助KMP算法能够迅速发现这些标记所在的具体时间戳,进而帮助解析后续的信息字段。 #### 3. **错误校验码验证** 一些高级纠错编码方案可能会附加冗余比特作为检错手段之一;如果采用固定形式的循环冗余检验 (CRC),那么也可以考虑利用类似的思路去加速查找对应的结果片段。 尽管如此,值得注意的是实际工程实践中往往更倾向于硬件电路或者专用指令集处理器来达成同样的目标,因为它们具备更高的实时性和更低功耗特性。 --- ### 总结 综上所述,虽然理论上存在多种方式让经典计算机科学理论融入无线通讯领域之中,但在真实场景下仍需综合考量性能指标等因素做出合理取舍。无论如何,深入理解基础原理始终有助于启发创新解决方案的设计灵感!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值