KMP

KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称KMP算法)。KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个next()函数,函数本身包含了模式串的局部匹配信息。时间复杂度O(m+n)。


举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"?

1.

 

首先,字符串"BBC ABCDAB ABCDABCDABDE"的第一个字符与搜索词"ABCDABD"的第一个字符,进行比较。因为B与A不匹配,所以搜索词后移一位。

2.

 

因为B与A不匹配,搜索词再往后移。

3.

 

就这样,直到字符串有一个字符,与搜索词的第一个字符相同为止。

4.

 

接着比较字符串和搜索词的下一个字符,还是相同。

5.

 

直到字符串有一个字符,与搜索词对应的字符不相同为止。

6.

 

这时,最自然的反应是,将搜索词整个后移一位,再从头逐个比较。这样做虽然可行,但是效率很差,因为你要把"搜索位置"移到已经比较过的位置,重比一遍。

7.

 

一个基本事实是,当空格与D不匹配时,你其实知道前面六个字符是"ABCDAB"。KMP算法的想法是,设法利用这个已知信息,不要把"搜索位置"移回已经比较过的位置,继续把它向后移,这样就提高了效率。

8.

 

怎么做到这一点呢?可以针对搜索词,算出一张《部分匹配表》(Partial MatchTable)。这张表是如何产生的,后面再介绍,这里只要会用就可以了。

9.

 

已知空格与D不匹配时,前面六个字符"ABCDAB"是匹配的。查表可知,最后一个匹配字符B对应的"部分匹配值"为2,因此按照下面的公式算出向后移动的位数:

  移动位数 = 已匹配的字符数 - 对应的部分匹配值

因为 6 - 2 等于4,所以将搜索词向后移动4位。

10.

 

因为空格与C不匹配,搜索词还要继续往后移。这时,已匹配的字符数为2("AB"),对应的"部分匹配值"为0。所以,移动位数 = 2- 0,结果为 2,于是将搜索词向后移2位。

11.

 

因为空格与A不匹配,继续后移一位。

12.

 

逐位比较,直到发现C与D不匹配。于是,移动位数 = 6 - 2,继续将搜索词向后移动4位。

13.

 

逐位比较,直到搜索词的最后一位,发现完全匹配,于是搜索完成。如果还要继续搜索(即找出全部匹配),移动位数 = 7 - 0,再将搜索词向后移动7位,这里就不再重复了。

14.

 

下面介绍《部分匹配表》是如何产生的。

首先,要了解两个概念:"前缀"和"后缀"。"前缀"指除了最后一个字符以外,一个字符串的全部头部组合;"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。

15.

 

"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例,

  - "A"的前缀和后缀都为空集,共有元素的长度为0;

  - "AB"的前缀为[A],后缀为[B],共有元素的长度为0;

  - "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;

  - "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;

  - "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;

  - "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB,DAB, AB, B],共有元素为"AB",长度为2;

  - "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD,CDABD, DABD, ABD, BD, D],共有元素的长度为0。

16.

 

"部分匹配"的实质是,有时候,字符串头部和尾部会有重复。比如,"ABCDAB"之中有两个"AB",那么它的"部分匹配值"就是2("AB"的长度)。搜索词移动的时候,第一个"AB"向后移动4位(字符串长度-部分匹配值),就可以来到第二个"AB"的位置。




我的理解:

要避免常规方法那样一个字符一个字符地往后移动,就是要我们找出不必要的移动,就是直接跳到可能存在相同子串的地方然后再往后寻找,比如上例中主串BBC ABCDAB ABCDABCDABDE,子串ABCDABD, 我们“肉眼”一看,(可能有的人呢...一眼就找到了,那你牛*啊,我不信长度几千你也能一眼瞄......)首先直接跳过BBC,找到第一个A开头的那一串,发现不行,继续找,此时我们的视线不是往后移一位移到B那里,而是找到第二个A开头那一串,发现也不行,我们跳过中间的B,(因为聪明的大脑告诉我们肯定要找以A开头的  哈哈)找第三个A开头的..不行..找第四个A开头的...哇~发现找到了,那这就是我们“肉眼”找子串的过程,那如何让计算机也像我们一样聪明呢,也按照这样“机智”的方法找呢?难点就在于如何让程序知道:在上一次寻找失败后,下一步要往后跳几个字符。这里就体现了“机智”,而不是传统方法的暴力查找。那如何知道知道跳几步呢?

首先进行的就是对子串进行一个预处理,求出它的匹配值,即子串前缀和后缀的最大公共子串的长度。就是next数组,解决了这个跳几步的问题,接下来就是要知道什么时候跳了,这比求匹配值好想的多,不匹配就往后跳呗。


示例代码:

#include<cstdio>
#include<cstring>
#include<iostream>
#include<algorithm>
#include<cmath>
#include<cstdlib>
#include<queue>
#include<set>
#include<map>
#include<vector>
#include<stack>
using namespace std;
struct str{
    char s[100];   //字符串
    int length;   //长度
}t,p; //主串和子串
int next[102];   //子串做预处理后得到的
void getnext(struct str p,int next[]){  //预处理  得出匹配值 即要偏移的距离存入next数组中
    int i=0,j=-1;
    next[0]=-1;
    while(i<p.length){
        if(j==-1||p.s[i]==p.s[j]){ 
            i++;
            j++;
            next[i]=j;
        }
        else
            j=next[j];
    }
//    for(i=0;i<p.length;i++)
//        printf("%d ",next[i]);
//    printf("\n");
}
int kmp(struct str t,struct str p,int next[]){
    int i=0,j=0;
    while(i<t.length&&j<p.length){
        if(j==-1||t.s[i]==p.s[j]){
            i++;
            j++;
        }
        else
            j=next[j];
    }
    if(j==p.length)return i-p.length;
    return -1;
}
int main()
{
    scanf("%s",t.s);
    t.length=strlen(t.s);
    scanf("%s",p.s);
    p.length=strlen(p.s);
    getnext(p,next);
    printf("%d\n",kmp(t,p,next));
    return 0;
}


10-19
### KMP算法详解 KMP(Knuth-Morris-Pratt)算法是一种高效的字符串匹配算法,用于在一个主串中快速找到模式串的位置。其核心思想在于通过预处理模式串构建部分匹配表(Partial Match Table, PMT),从而减少不必要的字符比较次数。 #### 部分匹配表的计算 部分匹配表记录了模式串前缀和后缀的最大重叠长度。具体来说,对于模式串 `P` 的每个位置 `i`,计算最长相等前后缀的长度并存入数组 `next[i]` 中[^1]。 以下是部分匹配表的构造方法: ```python def compute_next(pattern): n = len(pattern) next_array = [0] * n # 初始化 next 数组 j = 0 # 前缀指针 for i in range(1, n): # 后缀指针从第二个字符开始遍历 while j > 0 and pattern[j] != pattern[i]: j = next_array[j - 1] if pattern[j] == pattern[i]: j += 1 next_array[i] = j # 记录当前最大公共前后缀长度 return next_array ``` #### 字符串匹配过程 基于已构建的部分匹配表,可以高效完成字符串匹配操作。当遇到失配时,无需回退主串指针,而是依据部分匹配表调整模式串起始位置继续匹配。 下面是完整的 KMP 算法实现: ```python def kmp_search(text, pattern): m = len(text) n = len(pattern) next_array = compute_next(pattern) # 构建部分匹配表 matches = [] j = 0 # 模式串索引 for i in range(m): # 主串索引 while j > 0 and text[i] != pattern[j]: j = next_array[j - 1] if text[i] == pattern[j]: j += 1 if j == n: # 找到匹配子串 matches.append(i - n + 1) j = next_array[j - 1] # 继续寻找下一个可能的匹配 return matches ``` --- ### KMP算法在OFDM中的应用 正交频分复用(Orthogonal Frequency Division Multiplexing, OFDM)是一种广泛应用于现代通信系统的调制技术。它将信道划分为多个相互正交的子载波,在这些子载波上传输数据。为了提高传输效率和抗干扰能力,OFDM通常会引入同步机制以及训练序列来辅助接收端解码。 KMP算法可以在以下几个方面与OFDM相结合: #### 1. **训练序列检测** 在OFDM系统中,发送端会在帧头插入特定的训练序列以便于接收端进行同步和信道估计。由于训练序列具有固定的结构特征,因此可以通过KMP算法快速定位该序列在接收到的数据流中的位置[^2]。 例如,假设训练序列为 `"ABCD"`,而接收到的一段信号表示为一维采样值 `[..., A', B', C', D', ...]`,则可将其离散化后再运用KMP算法执行精确匹配。 #### 2. **符号边界识别** 除了训练序列外,某些标准还规定了特殊的标志位用来指示每一段有效负载的起点和终点。同样地,借助KMP算法能够迅速发现这些标记所在的具体时间戳,进而帮助解析后续的信息字段。 #### 3. **错误校验码验证** 一些高级纠错编码方案可能会附加冗余比特作为检错手段之一;如果采用固定形式的循环冗余检验 (CRC),那么也可以考虑利用类似的思路去加速查找对应的结果片段。 尽管如此,值得注意的是实际工程实践中往往更倾向于硬件电路或者专用指令集处理器来达成同样的目标,因为它们具备更高的实时性和更低功耗特性。 --- ### 总结 综上所述,虽然理论上存在多种方式让经典计算机科学理论融入无线通讯领域之中,但在真实场景下仍需综合考量性能指标等因素做出合理取舍。无论如何,深入理解基础原理始终有助于启发创新解决方案的设计灵感!
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值