字符串匹配算法（BF KMP）

最新推荐文章于 2021-04-23 10:43:54 发布

原创最新推荐文章于 2021-04-23 10:43:54 发布 · 414 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #kmp

数据结构专栏收录该内容

4 篇文章

订阅专栏

本文介绍了两种字符串匹配算法——BF算法与KMP算法。BF算法简单易懂但效率较低，适用于小规模数据；KMP算法通过预处理提高匹配效率，适合大规模文本搜索。文章详细分析了两种算法的实现原理及代码。

BF算法（朴素算法）：
思路：
子串的定位操作通常称做模式匹配，其中子串称做模式串，主串称做目标串，朴素的模式匹配算法即是模式匹配的一种算法，其优点是简单易懂，易于理解，某些应用场合效率较高。缺点是需要多次回溯，对于数据较大的文本文件而言效率极低。
例子：
这里写图片描述
在BF算法中，失配时，主串中的i回退到每次起始位置的下一个位置，即i= i-j+1；子串中的j回退到起始位置，即j=0；当j遍历完子串都没有发生失配，此时匹配成功。
源代码：

#include<stdlib.h>
#include<string.h>
#include<assert.h>
#include<stdio.h>
int BF(const char *str, const char *sub, int pos)//时间复杂度O(m*n)
{
    assert(str != NULL && sub != NULL);
    int lenstr = strlen(str);
    int lensub = strlen(sub);
    if (pos<0 || pos>lenstr)
    {
        return -1;
    }
    int i = pos;
    int j = 0;
    while (i < lenstr && j < lensub)
    {
        if (str[i] == sub[j])
        {
            i++;
            j++;
        }
        else
        {
            i = i - j + 1;
            j = 0;
        }
    }
    if (j >= lensub)
    {
        return i - j;
    }
    else
    {
        return -1;
    }
}
int main()
{
    char *str = "ababcabcd";
    char *sub = "abcd";
    printf("%d\n", BF(str, sub, 0));
    //printf("%d\n",KMP(str,sub,0));    
    return 0;
}

KMP算法（高效的匹配算法）：
KMP算法的关键是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个next()函数，函数本身包含了模式串的局部匹配信息。时间复杂度O(m+n)。
例子：
这里写图片描述
在KMP算法中，主串中的i不回退。子串中的j回退，且每次回退的位置用next[]确定。
源代码：

void GetNext(int *next, char *sub)//用于找j回退的位置k
{
    assert(next != NULL && sub != NULL);
    int lensub = strlen(sub);
    next[0] = -1;
    next[1] = 0;
    int j = 2;
    int k = 0;
    while (j < lensub-1)
    {
        if ((k == -1) || sub[k] == sub[j])//回退为-1时，k++
        {
            next[j] = k;
            j++;
            k++;
        }
        else
        {
            k = next[k];
        }
    }
}

int KMP(char *str, char *sub, int pos)//时间复杂度O(m+n)
{
    assert(str != NULL && sub != NULL);
    int lenstr = strlen(str);
    int lensub = strlen(sub);
    if (pos<0 || pos>lenstr)
    {
        return -1;
    }
    int *next = (int *)malloc(sizeof(int)*strlen(str));
    assert(next != NULL);
    GetNext(next, sub);
    int i = pos;
    int j = 0;
    while (i < lenstr && j < lensub)
    {
        if ((j == -1) || str[i] == sub[j])
        {
            i++;
            j++;
        }
        else
        {
            j = next[j];
        }
    }
    if (j >= lensub-1)
    {
        return i - j;
    }
    else
    {
        return -1;
    }
}
int main()
{
    char *str = "ababcabcdabcdef";
    char *sub = "ef";
    //printf("%d\n", BF(str, sub, 0));
    printf("%d\n",KMP(str,sub,0));  
    return 0;
}