POJ 1226 Substrings KMP暴力或后缀数组

最新推荐文章于 2019-10-06 08:15:04 发布

原创最新推荐文章于 2019-10-06 08:15:04 发布 · 797 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#POJ 1226 #Substrings #KMP #后缀数组

POJ 同时被 3 个专栏收录

46 篇文章

订阅专栏

ACM_Suffix_Array

35 篇文章

订阅专栏

ACM_KMP

8 篇文章

订阅专栏

本文介绍了通过KMP算法和后缀数组两种方法解决多组字符串中查找最大公共子串的问题，并提供了相应的代码实现。其中，KMP算法通过枚举最短串的所有子串进行匹配判断，而后缀数组则采用合并字符串及其反转后的序列，求解后缀数组及高度数组，利用高度数组判断是否存在满足条件的公共子串。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目大意：

就是现在多组测试数据( <= 10) 每组有n(1 <= n <= 100)个串, 每个字符串长度至少为1且不超过100, 现在要求找一个最长的串使得这个串是这n个字符串的共同子串(反向匹配成功也算可以), 输出找到的满足条件的字符串的最大长度

大致思路：

首先一个简单的想法是用KMP来水过.....暴力枚举最短的那个串的所有子串判断是否满足条件即可..而且用时还很短,能水过

另外一个想法是使用后缀数组, 应该算作是正解了= =

两个想法各自的代码如下：

KMP暴力：

暴力枚举最短的那个串的所有子串进行匹配判断即可

Result : Accepted Memory : 144 KB Time : 16 ms

/*
 * Author: Gatevin
 * Created Time:  2015/2/1 14:09:14
 * File Name: POJ1226.cpp
 */
#include<iostream>
#include<sstream>
#include<fstream>
#include<vector>
#include<list>
#include<deque>
#include<queue>
#include<stack>
#include<map>
#include<set>
#include<bitset>
#include<algorithm>
#include<cstdio>
#include<cstdlib>
#include<cstring>
#include<cctype>
#include<cmath>
#include<ctime>
#include<iomanip>
using namespace std;
const double eps(1e-8);
typedef long long lint;

char s[110][110];
char pat[110];
int n;
int next[110];

bool KMP(char* s1, int len, int nCom)
{
    memset(next, 0, sizeof(next));
    for(int i = 1; i < len; i++)
    {
        int j = i;
        while(j > 0)
        {
            j = next[j];
            if(s1[i] == s1[j])
            {
                next[i + 1] = j + 1;
                break;
            }
        }
    }
    vector <int> pos;
    for(int p = 0; p < n; p++)
    {
        if(p != nCom)
        {
            char *s2 = s[p];
            int len2 = strlen(s2);
            bool flag = false;
            for(int i = 0, j = 0; i < len2; i++)//正向寻找一次匹配
            {
                if(s1[j] == s2[i])
                {
                    j++;
                }
                else
                {
                    while(j > 0)
                    {
                        j = next[j];
                        if(s2[i] == s1[j])
                        {
                            j++;
                            break;
                        }
                    }
                }
                if(j == len)
                {
                    flag = true;
                    break;
                }
            }
            if(!flag)
            for(int i = len2 - 1, j = 0; i >= 0; i--)//逆向寻找一次匹配
            {
                if(s1[j] == s2[i])
                {
                    j++;
                }
                else
                {
                    while(j > 0)
                    {
                        j = next[j];
                        if(s2[i] == s1[j])
                        {
                            j++;
                            break;
                        }
                    }
                }
                if(j == len)
                {
                    flag = true;
                    break;
                }
            }
            if(!flag) return false;
        }
    }
    return true;
}

int main()
{
    int t;
    int minsl, mins;
    scanf("%d", &t);
    while(t-->0)
    {
        scanf("%d", &n);
        minsl = 233;
        mins = 233;
        for(int i = 0; i < n; i++)
        {
            scanf("%s", s[i]);
            if(minsl > (int)strlen(s[i]))
            {
                mins = i;
                minsl = strlen(s[i]);
            }
        }
        for(int len = minsl; len > 0; len--)//枚举长度
        {
            for(int j = 0; j + len - 1 < minsl; j++)//枚举起点
            {
                for(int k = j; k < j + len; k++)
                {
                    pat[k - j] = s[mins][k];
                }
                pat[len] = '\0';
                if(KMP(pat, len, mins))
                {
                    printf("%d\n", len);
                    goto nex;
                }
            }
        }
        printf("0\n");//没有出现匹配时输出0
        nex:;
    }
    return 0;
}

后缀数组的做法：

将所有串及其反串连起来,中间用不同的且不属于输入的字符串的字符隔开,最后一个字符的值设为0, 求出其后缀数组sa, 以及height数组, 根据height数组表示LCP(i, i - 1)的性质,

只有当连续的一段height值都不小于L的时候,且这一段的sa来源于输入n个字符串的时候, 存在长度为L的串满足在输入的串中存在或存在其反串, 所以二分L判断L的最大值即可

Result : Accepted Memory : 540 KB Time : 0 ms

/*
 * Author: Gatevin
 * Created Time:  2015/2/1 15:16:04
 * File Name: Iris_Freyja.cpp
 */
#include<vector>
#include<list>
#include<deque>
#include<queue>
#include<stack>
#include<map>
#include<set>
#include<bitset>
#include<algorithm>
#include<cstdio>
#include<cstdlib>
#include<cstring>
#include<cctype>
#include<cmath>
#include<ctime>
#include<iomanip>
using namespace std;
const double eps(1e-8);
typedef long long lint;

#define maxn 23333

/*
 * Doubling Algorithm求后缀数组
 */
int wa[maxn], wb[maxn], wv[maxn], Ws[maxn];

int cmp(int* r, int a, int b, int l)
{
    return r[a] == r[b] && r[a + l] == r[b + l];
}

void da(int* r, int* sa, int n, int m)
{
    int *x = wa, *y = wb, *t, i, j, p;
    for(i = 0; i < m; i++) Ws[i] = 0;
    for(i = 0; i < n; i++) Ws[x[i] = r[i]]++;
    for(i = 1; i < m; i++) Ws[i] += Ws[i - 1];
    for(i = n - 1; i >= 0; i--) sa[--Ws[x[i]]] = i;
    for(j = 1, p = 1; p < n; j *= 2, m = p)
    {
        for(p = 0, i = n - j; i < n; i++) y[p++] = i;
        for(i = 0; i < n; i++) if(sa[i] >= j) y[p++] = sa[i] - j;
        for(i = 0; i < n; i++) wv[i] = x[y[i]];
        for(i = 0; i < m; i++) Ws[i] = 0;
        for(i = 0; i < n; i++) Ws[wv[i]]++;
        for(i = 1; i < m; i++) Ws[i] += Ws[i - 1];
        for(i = n - 1; i >= 0; i--) sa[--Ws[wv[i]]] = y[i];
        for(t = x, x = y, y = t, p = 1, x[sa[0]] = 0, i = 1; i < n; i++)
            x[sa[i]] = cmp(y, sa[i - 1], sa[i], j) ? p - 1 : p++;
    }
    return;
}
        
/*
 * 计算height数组, h数组为临时变量未储存
 * height[i] = LCP(i, i - 1)
 * LCP(i, j) = lcp(Suffix(SA[i]), Suffix(SA[i - 1]));
 */
int rank[maxn], height[maxn], sa[maxn];
void calheight(int *r, int *sa, int n)
{
    int i, j, k = 0;
    for(i = 1; i <= n; i++) rank[sa[i]] = i;
    for(i = 0; i < n; height[rank[i++]] = k)
        for(k ? k-- : 0, j = sa[rank[i] - 1]; r[i + k] == r[j + k]; k++);
    return;
}

char s[110];
int S[maxn];
bool flag[110];
int belong[maxn];//belong数组记录合并出来的串中各个字符的来源
int n;

/*
 * find函数判断是否存在长度为mid的串被n个串或其反串包含
 * 显然对于要求的最大长度L, l <= L也可以被找到为可行, 而l > L find将返回false
 * 这样具有了单调性可以二分求解L
 * 如果L存在则在对应的后缀树上必定存在连续的一段分支即存在连续的一段height数组使得height值不小于L
 * 判断是否存在连续的一段height数组>= L且其后缀来源是输入的n个串即可
 */
bool find(int mid, int N)
{
    memset(flag, 0, sizeof(flag));
    int cnt = 0;
    for(int i = 1; i <= N; i++)
    {
        if(height[i] < mid)//连续性中断,标记清零
        {
            cnt = 0;
            memset(flag, 0, sizeof(flag));
        }
        else
        {
            /*
             * height[i] >= mid说明Suffix(SA[i]), Suffix(SA[i - 1])的公共前缀长度不小于mid
             * 判断这两个后缀的来源进行标记
             */
            if(!flag[belong[sa[i]]])
            {
                flag[belong[sa[i]]] = 1;
                cnt++;
            }
            if(!flag[belong[sa[i - 1]]])
            {
                flag[belong[sa[i - 1]]] = 1;
                cnt++;
            }
            if(cnt == n) return true;
        }
    }
    return false;
}

int main()
{
    int t;
    scanf("%d", &t);
    int maxlen;
    while(t-->0)
    {
        scanf("%d", &n);
        memset(belong, 0, sizeof(belong));
        int N = 0;
        maxlen = 233;
        for(int i = 0; i < n; i++)
        {
            scanf("%s", s);
            int tmp = strlen(s);
            maxlen = min(tmp, maxlen);
            for(int j = 0; j < tmp; j++)
            {
                belong[N] = i;
                S[N++] = s[j];
            }
            S[N++] = 130 + 2*i;
            for(int j = tmp - 1; j >= 0; j--)
            {
                belong[N] = i;
                S[N++] = s[j];
            }
            S[N++] = 130 + 2*i + 1;
        }
        if(n == 1)//如果只输入一个字符串特判即可,自身满足条件
        {
            printf("%d\n", (int)strlen(s));
            continue;
            //不过测试数据好像没有n == 1的情况,不特判也没有WA
        }
        N--;
        S[N] = 0;
        da(S, sa, N + 1, 130 + 2*n + 7);
        calheight(S, sa, N);
        int L = 0, R = maxlen, mid, ans = 0;//R上界为最小输入的字符串的长度
        while(L <= R)
        {
            mid = (L + R) >> 1;
            if(find(mid, N))
            {
                L = mid + 1;
                ans = mid;
            }
            else
                R = mid - 1;
        }
        printf("%d\n", ans);
    }
    return 0;
}