后缀数组(重复次数最多的连续重复子串)

本文详细介绍了如何解决POJ3693问题——寻找字符串中重复次数最多的连续子串。通过倍增算法进行后缀数组构建,并结合RMQ算法求解最长公共前缀,最终找到符合要求的子串及其重复次数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

POJ3693:Maximum repetition substring

题意:给定一个字符串,求重复次数最多的连续重复子串。

思路:先穷举长度L,然后求长度为L的子串最多能连续出现几次。首先连续出现1次是肯定可以的,所以这里只考虑至少2次的情况。假设在原字符串中连续出现2次,记这个子字符串为S,那么S肯定包括了字符r[0], r[L], r[L*2],r[L*3], ……中的某相邻的两个。所以只须看字符r[L*i]和r[L*(i+1)]往前和往后各能匹配到多远,记这个总长度为K,那么这里连续出现K/L+1次。最后看最大值是多少。但是l,l*2,l*3这些位置不一定是所求段的起始位置,于是我们可以再计算k对于长度l“多余”出来的长度,看它和现在的起始位置之前的能不能“拼起来”与模式段匹配使重复的次数+1。

/*
*
* 倍增算法(n*logn)
* 待排序数组长度为n,放在0~n-1中,在最后补0
* sa为后缀数组,把后缀从小到大排序把后缀开头存起来,rank为名次数组,以i开头的后缀在所有后缀中排第几
* sa的有效值为1~n,sa[0]必为n无效
* rank的有效值为0~n-1,rank[n]必为0无效
* height的有效值为2~n,前两个为0
*
*/
#include<cstdio>
#include<cstring>
#include<cstdlib>
#include<iostream>
#include<algorithm>
using namespace std;
const int maxn=1e6+10;
int x[maxn];
int wa[maxn],wb[maxn],ww[maxn],wv[maxn],nn,Z=1;
char str[100010];
int cmp(int *r,int a,int b,int l)
{
    return r[a]==r[b]&&r[a+l]==r[b+l];
}
void da(int *r,int *sa,int n,int m)//求的数组,得到的后缀数组,最长长度+1,数组里的最大值(一般180或者255);
{
    int i,j,p,*x=wa,*y=wb,*t;
    for(i=0; i<m; i++) ww[i]=0;
    for(i=0; i<n; i++) ww[x[i]=r[i]]++;
    for(i=1; i<m; i++) ww[i]+=ww[i-1];
    for(i=n-1; i>=0; i--) sa[--ww[x[i]]]=i; //处理长度为一的字符串,得到sa数组
    for(j=1,p=1; p<n; j*=2,m=p) //倍增法求sa
    {
        for(p=0,i=n-j; i<n; i++) y[p++]=i;
        for(i=0; i<n; i++) if(sa[i]>=j) y[p++]=sa[i]-j;//利用上次的sa直接求出按第二个关键字排序
        for(i=0; i<n; i++) wv[i]=x[y[i]]; //第二关键字的排序得出第一关键字的顺序
        for(i=0; i<m; i++) ww[i]=0;
        for(i=0; i<n; i++) ww[wv[i]]++;
        for(i=1; i<m; i++) ww[i]+=ww[i-1];
        for(i=n-1; i>=0; i--) sa[--ww[wv[i]]]=y[i]; //根据第一关键字的顺序排出sa数组的顺序
        for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1; i<n; i++) //更新x数组 x为rank数组
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
    }
    return ;
}
int h[maxn];//也就是排名相邻的两个后缀的最长公共前缀sa[i]和sa[i-1]
int Rank[maxn];//名次数组
void get_height(int *r,int *sa,int n)//同上,n小1
{
    int k=0,i,j;
    for(int i=1; i<=n; i++) Rank[sa[i]]=i;
    for(int i=0; i<n; h[Rank[i++]]=k)
        for(k?k--:0,j=sa[Rank[i]-1]; r[i+k]==r[j+k]; k++) ;
    return ;
}
int RMQ[maxn],mm[maxn],best[20][maxn];
void initRMQ(int n)//初始化RMQ
{
    for(int i=1;i<=n;i++) RMQ[i]=h[i];
    mm[0]=-1;
    for(int i=1;i<=n;i++)
        mm[i]=((i&(i-1))==0)?mm[i-1]+1:mm[i-1];
    for(int i=1;i<=n;i++) best[0][i]=i;
    for(int i=1;i<=mm[n];i++)
    for(int j=1;j+(1<<i)-1<=n;j++)
    {
        int a=best[i-1][j];
        int b=best[i-1][j+(1<<(i-1))];
        if(RMQ[a]<RMQ[b]) best[i][j]=a;
        else best[i][j]=b;
    }
}
int askRMQ(int a,int b)
{
    int t;
    t=mm[b-a+1];
    b-=(1<<t)-1;
    a=best[t][a],b=best[t][b];
    return RMQ[a]<RMQ[b]?a:b;
}
int lcp(int a,int b)//询问a,b后缀的最长公共前缀
{
    a=Rank[a],b=Rank[b];
    if(a>b) swap(a,b);
    return h[askRMQ(a+1,b)];
}
int a[maxn];
int sa[maxn],r[maxn];
//int judge(int mid)//分组
//{
//    int ans=1,mx=sa[1],mi=sa[1];
//    for(int i=2; i<=nn; i++)
//    {
//        if(h[i]>=mid)//首先最长公共前缀肯定要大于现在枚举的长度
//        {
//            ans++;//看连续的到底有几个
//            mx=max(mx,sa[i]),mi=min(mi,sa[i]);//这一组中,长度最大(小)的子串是多长
//        }
//        else//重新分组
//        {
//            ans=1;
//            mx=sa[1],mi=sa[1];
//        }
//        if(ans>=k)//次数超过了,那么这个k长度下是可行的
//            return 1;
//    }
//    return 0;
//}
int solve(int n)
{
    int k,l,Max=-1,ans[100010],len;
    for(l=1;l<=n-1;l++)//枚举长度
    {
        for(int i=0;l+i<n;i+=l)//计算i*l~i*l+l
        {
            k=lcp(i,i+l);
            int m=k/l+1;//m是重复的次数
            int t=i-(l-k%l);//判断不是起始位置的时候 前移t位整除l
            if(t>=0&&k%l)//不是起始位置&&t>=0
            {
                if(lcp(t,t+l)>=k) m++;
            }
            if(m>Max)//更新m和答案
            {
                len=0;
                ans[len++]=l;
                Max=m;
            }
            else if(m==Max)//次数相同的存起来
            {
                ans[len++]=l;
            }
        }
    }
    int start,flag=0;
    for(int i=1;i<=n;i++)
    {
        if(flag) break;
        for(int j=0;j<len;j++)
        {
            int tmp=ans[j];//存的满足答案的长度
            if(lcp(sa[i],sa[i]+tmp)>=(Max-1)*tmp)//判断字典序最小    sa数组本来就是按照字典序排的
            {
                start=sa[i];//记录初始位置
                l=tmp*Max;//最大长度值
                flag=1;
                break;
            }
        }
    }
    printf("Case %d: ",Z++);//输出答案
    for(int i=0;i<l;i++)
        printf("%c",str[start+i]);
    printf("\n");
}
int main()
{
    while(~scanf("%s",str))
    {
        if(str[0]=='#') break;
        nn=strlen(str);
        for(int i=0; i<nn; i++)
            x[i]=str[i];
        x[nn]=0;
        da(x,sa,nn+1,255);
        get_height(x,sa,nn);
        initRMQ(nn);
        solve(nn);
    }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值