7-2 字符串匹配算法比较

给定两个由英文字母组成的字符串 string 和 pattern,要求找到 pattern 在 string 中第一次出现的位置,并将此位置后的 string 的子串输出。如果找不到,则输出“Not Found”。

本题旨在测试各种不同的匹配算法在各种数据情况下的表现。各组测试数据特点如下:

  • 数据0:小规模字符串,测试基本正确性;
  • 数据1:随机数据,String 长度为 105,Pattern 长度为 10;
  • 数据2:随机数据,String 长度为 105,Pattern 长度为 102;
  • 数据3:随机数据,String 长度为 105,Pattern 长度为 103;
  • 数据4:随机数据,String 长度为 105,Pattern 长度为 104;
  • 数据5:String 长度为 106,Pattern 长度为 105;测试尾字符不匹配的情形;
  • 数据6:String 长度为 106,Pattern 长度为 105;测试首字符不匹配的情形。

输入格式:

输入第一行给出 string,为由英文字母组成的、长度不超过 106 的字符串。第二行给出一个正整数 n(≤10),为待匹配的模式串的个数。随后 n 行,每行给出一个 pattern,为由英文字母组成的、长度不超过 105 的字符串。每个字符串都非空,以回车结束。

输出格式:

对每个 pattern,按照题面要求输出匹配结果。

输入样例:

abcabcabcabcacabxy
3
abcabcacab
cabcabcd
abcabcabcabcacabxyz

输出样例:

abcabcacabxy
Not Found
Not Found

/*
#include<stdio.h>
#define MaxSize 1000001

void KMP(char s[],char p[],int ls,int lp)
{
    int nextval[MaxSize];
    nextval

        //
    int i=0,j=0;
    while(i<ls&&j<lp)
    {
        if(s[i]==p[j])
        {
            i++;
            j++;
        }
        else
            j=nextval(j);
    }
}

int main()
{
    char s[MaxSize],p[MaxSize];
    int ls=0,lp=0;

    while((s[ls]=getchar())!='\n')
        ls++;

    int n;
    scanf("%d",&n);
    while(n>=0)
    {
        while((p[lp]=getchar())!='\n')
            lp++;

        KMP(s,p,ls,lp);
//
        //
        //

        n--;
    }
    

    return 0;
}
*/
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

int la,lb;
int next[1000001];
char a[1000001],b[1000001];

void Next()
{
    int i,j=0;
    for(i=2;i<=lb;i++)
    {
        while(j>0&&b[i]!=b[j+1])
        {
            j=next[j];
        }
        if(b[i]==b[j+1])
            j++;
        next[i]=j;
    }
}
int KMP(char a[],char b[])
{
    int j=0,t=0,l=-1;
    for(int i=1;i<=la;i++)
    {
        while(j>0&&b[j+1]!=a[i])
        {
            j=next[j];
        }
        if(b[j+1]==a[i])
            j++;
        if(j==lb)
        {
            t=i-lb+1;
            l=0;
            break;
        }
    }
    if(l==0)
    {
        for(;t<=la;t++)
        {
            printf("%c",a[t]);
        }
    }
    return l;
}
int main()
{
    scanf("%s",a+1);
    la=strlen(a+1);
    int n;
    scanf("%d",&n);
    for(int i=0;i<n;i++)
    {
        scanf("%s",b+1);
        lb=strlen(b+1);
        Next();
        int m=KMP(a,b);
        if(m==-1)
            printf("Not Found");
        if(i!=n-1)
            printf("\n");
    }
}

### PTA 7-2 字符串匹配算法性能对比及实现分析 #### 一、字符串匹配算法概述 字符串匹配问题是计算机科学中的经典问题之一,其目标是在一个较长的文本串中找到某个较短的模式串的位置。常见的字符串匹配算法有朴素匹配算法(Naive Algorithm)、Rabin-Karp 算法以及更高效的 Knuth-Morris-Pratt (KMP) 算法等。 其中,KMP 算法因其高效性和广泛的应用场景而备受关注。该算法通过预先处理模式串来构建部分匹配表(Partial Match Table),从而避免了在不必要的情况下回溯文本指针,显著提高了匹配速度[^1]。 --- #### 二、PTA 7-2 的核心需求 题目要求对不同字符串匹配算法进行性能对比并提供具体实现分析。这通常涉及以下几个方面: 1. **时间复杂度**:评估每种算法的时间消耗。 2. **空间复杂度**:考察额外存储的需求。 3. **实际运行表现**:针对特定输入数据集测试各算法的实际执行效率。 对于本题而言,重点在于比较朴素匹配算法与 KMP 算法之间的差异,并给出具体的 C 或 Python 实现代码。 --- #### 三、朴素匹配算法 vs KMP 算法 ##### (1)朴素匹配算法 朴素匹配算法是最简单的字符串匹配方法,其实现逻辑如下: - 将模式串逐一与文本串中的子串进行比较- 如果发现某一位字符不匹配,则将模式串向右滑动一位重新开始比较。 尽管简单易懂,但此算法存在明显的缺点——当遇到大量重复失配时会浪费大量的计算资源。因此,其最坏情况下的时间复杂度为 O(n * m),其中 n 是文本串长度,m 是模式串长度[^3]。 ##### (2)KMP 算法 相比朴素匹配算法,KMP 算法则更加智能化。它通过对模式串预处理得到的部分匹配表(即 LPS 数组),能够有效减少不必要的字符比较操作。具体来说: - 部分匹配表记录了模式串每个位置处的最大相同前缀和后缀长度; - 当发生失配时,可以根据当前状态快速调整模式串起始位置,无需重置整个过程。 这种优化使得 KMP 算法能够在绝大多数情况下达到线性时间复杂度 O(n + m)[^2]。 --- #### 四、C 和 Python 实现示例 ##### (1)C语言实现 KMP 算法 以下是基于 C 语言的 KMP 算法实现代码片段: ```c #include <stdio.h> #include <string.h> void computeLPSArray(char* pattern, int M, int* lps) { int length = 0; lps[0] = 0; // lps[0] is always 0 int i = 1; while (i < M) { if (pattern[i] == pattern[length]) { length++; lps[i] = length; i++; } else { if (length != 0) { length = lps[length - 1]; } else { lps[i] = 0; i++; } } } } int KMPSearch(char* text, char* pattern) { int N = strlen(text); int M = strlen(pattern); int lps[M]; // Create LPS array computeLPSArray(pattern, M, lps); int i = 0; // index for text[] int j = 0; // index for pattern[] while ((N - i) >= (M - j)) { if (pattern[j] == text[i]) { j++; i++; } if (j == M) { printf("Found pattern at index %d \n", i - j); j = lps[j - 1]; } else if (i < N && pattern[j] != text[i]) { if (j != 0) j = lps[j - 1]; else i++; } } return -1; } ``` ##### (2)Python 实现 KMP 算法 下面是使用 Python 编写的 KMP 算法版本: ```python def compute_lps_array(pattern): lps = [0] * len(pattern) length = 0 i = 1 while i < len(pattern): if pattern[i] == pattern[length]: length += 1 lps[i] = length i += 1 else: if length != 0: length = lps[length - 1] else: lps[i] = 0 i += 1 return lps def kmp_search(text, pattern): lps = compute_lps_array(pattern) i = 0 # Index for text j = 0 # Index for pattern while i < len(text): if pattern[j] == text[i]: i += 1 j += 1 if j == len(pattern): print(f"Pattern found at index {i-j}") j = lps[j-1] elif i < len(text) and pattern[j] != text[i]: if j != 0: j = lps[j-1] else: i += 1 ``` --- #### 五、总结 综上所述,虽然朴素匹配算法易于理解和实现,但在面对大规模数据时显得力不从心;相比之下,KMP 算法凭借其精妙的设计思路大幅提升了字符串匹配的速度,尤其适合于需要频繁查找的情况。然而需要注意的是,任何一种算法的选择都应视具体情况而定,例如待解决问题规模大小、硬件条件限制等因素均可能影响最终决策。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值