字符串匹配——BF算法与KMP算法

最新推荐文章于 2022-06-06 21:33:36 发布

原创最新推荐文章于 2022-06-06 21:33:36 发布 · 4.2k 阅读

25 ·

CC 4.0 BY-SA版权

本文详细介绍了两种常用的字符串匹配算法——BF算法和KMP算法。通过具体实例解释了这两种算法的工作原理，并提供了相应的代码实现。此外，还分析了两种算法的时间复杂度。

【问题描述】

给定两个字符串S和T，在主串S中查找子串T，若主串中包含子串，则返回子串在主串中开始的位置，否则返回-1。

【BF算法】

匹配过程：

假设主串S为 abcabcacb

       子串T为 abcac

第一趟匹配：a b c a b c a c b \0

                      a b c a c \0

第二趟匹配：a b c a b c a c b \0

                         a b c a c \0

第三趟匹配：a b c a b c a c b \0

                           a b c a c \0

第四趟匹配：a b c a b c a c b \0

                           a b c a c \0

算法描述：

输入：主串S，模式T

输出：T在S中的位置

1.初始化主串比较的开始位置index=0;

2.在串S和串T中设置比较的起始下标i=0,j=0;

3.重复下述操作，直到S或T的所有字符均比较完毕：

3.1 如果S[i]等于T[j]，则继续比较S和T的下一对字符；

3.2 否则，下一趟匹配的开始位置index++，回溯下标i=index，j=0；

4.如果T中所有字符均比较完，则返回匹配的开始位置index；否则返回0；

代码实现：


int BF(char s[],char t[])
{
    int index=0;
    int i=0,j=0;
    while((s[i]!='\0')&&(t[j]!='\0'))
    {
        if(s[i]==t[j])
        {i++;j++;}
        else
        {index++;i=index;j=0;}
    }
    if(t[j]=='\0')return index;
    else return 0;
}

算法分析：

设主串S长度为n,模式T长度为m,在匹配成功的情况下，考虑最坏情况，即每趟不成功的匹配都发生在模式T的最后一个字符。

例如：S="aaaaaaaaaaaaaab"

T="aaab"

设匹配成功发生在 Si 处，则在 i-1 趟不成功的匹配中共比较了 (i-1)×m 次，第 i 趟成功的匹配共比较了 m 次，所以总共比较次数是：

$\sum_{i=1}^{n-m+1}Pi\ast \left ( i\ast m \right )= \sum_{i=1}^{n-m+1}$ $\frac{1}{n-m+1}\ast \left ( i\ast m \right )= \frac{m\left ( n-m+2 \right )}{2}$

一般情况下，m $\ll$ n，因此最坏情况下的时间复杂度为O(m×n)。

【KMP算法】

确定Next数组：

$next=\left\{\begin{matrix} -1 &&j=0 \\ max\left \{ k|1\leqslant k< j,T[0]\cdot\cdot\cdot T[k-1]=T[j-k]\cdot \cdot \cdot T[j-1]\right \}&& empty\\ 0& &else \end{matrix}\right.$

例如：子串=“ababc”

j T比较前后缀比较最长匹配度 next[j]
0 -1
1 a 0
2 ab 0
3 aba 1
4 abab 2

KMP匹配：

算法描述：

输入：主串S，模式T

输出：T在S中的位置

1. 在串S中和串T中分别设置比较的起始下标 i = 0 , j = 0；

2. 重复下述操作，知道S或T的所有字符均比较完毕：

2.1   如果S[i]等于T[j]，则继续比较S和T的下一对字符；

2.2   否则，将下标j回溯到next[j]的位置，即j=next[j]；

2.3   如果 j 等于-1,则将下标 i 和 j 分别加 1 ，准备下一趟比较；

3. 如果T中所有字符均比较完毕，则返回本趟比较匹配的开始位置；否则返回-1；

代码实现：

void getNext(char *p,int next[])
{
    int j=0,k=-1,plen=strlen(p);
    next[0]=-1;
    while(j<plen-1)
    {
        if(k==-1||p[j]==p[k])
        {
            ++k;++j;
            next[j]=k;
        }
        else
            k=next[k];
    }
}
int KMPsearch(char* s,char* p)
{
    int i=0,j=0,slen=strlen(s),plen=strlen(p),next[100];
    getNext(p,next);
    while(i<slen&&j<plen)
    {
        if(j==-1||s[i]==p[j])
        {
            i++;j++;
        }
        else
            j=next[j];
    }
    if(j==plen)
        return i-j;
    else
        return -1;
}

算法分析：

算法getNext只需将模式扫描一遍，设模式的长度为 m ,则算法的时间复杂性为O（m）。

【参考文献】《算法设计与分析（第2版）》王红梅胡明编著

j	T比较前后缀比较最长匹配度	next[j]
0		-1
1	a	0
2	ab	0
3	aba	1
4	abab	2

字符串匹配——BF算法与KMP算法

【问题描述】

给定两个字符串S和T，在主串S中查找子串T，若主串中包含子串，则返回子串在主串中开始的位置，否则返回-1。

【BF算法】

假设主串S为 abcabcacb

子串T为 abcac

第一趟匹配：a b c a b c a c b \0

a b c a c \0

第二趟匹配：a b c a b c a c b \0

a b c a c \0

第三趟匹配：a b c a b c a c b \0

a b c a c \0

第四趟匹配：a b c a b c a c b \0

a b c a c \0

输入：主串S，模式T

输出：T在S中的位置

1.初始化主串比较的开始位置index=0;

2.在串S和串T中设置比较的起始下标i=0,j=0;

3.重复下述操作，直到S或T的所有字符均比较完毕：

3.1 如果S[i]等于T[j]，则继续比较S和T的下一对字符；

3.2 否则，下一趟匹配的开始位置index++，回溯下标i=index，j=0；

4.如果T中所有字符均比较完，则返回匹配的开始位置index；否则返回0；

设主串S长度为n,模式T长度为m,在匹配成功的情况下，考虑最坏情况，即每趟不成功的匹配都发生在模式T的最后一个字符。

例如 ：S="aaaaaaaaaaaaaab"

T="aaab"

设匹配成功发生在 Si 处，则在 i-1 趟不成功的匹配中共比较了 (i-1)×m 次，第 i 趟成功的匹配共比较了 m 次，所以总共比较次数是：

一般情况下，mn，因此最坏情况下的时间复杂度为O(m×n)。

【KMP算法】

算法getNext只需将模式扫描一遍，设模式的长度为 m ,则算法的时间复杂性为O（m）。

例如：S="aaaaaaaaaaaaaab"

一般情况下，m $\ll$ n，因此最坏情况下的时间复杂度为O(m×n)。