后缀数组(不小于k个字符串中的最长子串)

POJ 3294 Life Forms
题意:输入n个DNA序列,你的任务是求出一个长度最大的字符串,使得它在超过一般的DNA序列中出现。如果有多解,按照字典序从小到大输入所有解,无解输出?。
思路:把所有的都连接起来,用不同的字符隔开,求其后缀数组和height数组,然后二分长度,按照长度分组,判断是否有一组有超过一半的字符串,最后根据长度输出答案;

/*
*
* 倍增算法(n*logn)
* 待排序数组长度为n,放在0~n-1中,在最后补0
* sa为后缀数组,把后缀从小到大排序把后缀开头存起来,rank为名次数组,以i开头的后缀在所有后缀中排第几
* sa的有效值为1~n,sa[0]必为n无效
* rank的有效值为0~n-1,rank[n]必为0无效
* height的有效值为2~n,前两个为0
*
*/
#include<cstdio>
#include<cstring>
#include<cstdlib>
#include<iostream>
#include<algorithm>
using namespace std;
const int maxn=1e6+10;
int x[maxn],n,k;
int wa[maxn],wb[maxn],ww[maxn],wv[maxn],nn,Z=1;
char str[100010];
int pos[maxn];//记录是i位置的字符是第几个字符串的字符
int cmp(int *r,int a,int b,int l)
{
    return r[a]==r[b]&&r[a+l]==r[b+l];
}
void da(int *r,int *sa,int n,int m)//求的数组,得到的后缀数组,最长长度+1,数组里的最大值(一般180或者255);
{
    int i,j,p,*x=wa,*y=wb,*t;
    for(i=0; i<m; i++) ww[i]=0;
    for(i=0; i<n; i++) ww[x[i]=r[i]]++;
    for(i=1; i<m; i++) ww[i]+=ww[i-1];
    for(i=n-1; i>=0; i--) sa[--ww[x[i]]]=i; //处理长度为一的字符串,得到sa数组
    for(j=1,p=1; p<n; j*=2,m=p) //倍增法求sa
    {
        for(p=0,i=n-j; i<n; i++) y[p++]=i;
        for(i=0; i<n; i++) if(sa[i]>=j) y[p++]=sa[i]-j;//利用上次的sa直接求出按第二个关键字排序
        for(i=0; i<n; i++) wv[i]=x[y[i]]; //第二关键字的排序得出第一关键字的顺序
        for(i=0; i<m; i++) ww[i]=0;
        for(i=0; i<n; i++) ww[wv[i]]++;
        for(i=1; i<m; i++) ww[i]+=ww[i-1];
        for(i=n-1; i>=0; i--) sa[--ww[wv[i]]]=y[i]; //根据第一关键字的顺序排出sa数组的顺序
        for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1; i<n; i++) //更新x数组 x为rank数组
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
    }
    return ;
}
int h[maxn];//也就是排名相邻的两个后缀的最长公共前缀sa[i]和sa[i-1]
int Rank[maxn];//名次数组
void get_height(int *r,int *sa,int n)//同上,n小1
{
    int k=0,i,j;
    for(int i=1; i<=n; i++) Rank[sa[i]]=i;
    for(int i=0; i<n; h[Rank[i++]]=k)
        for(k?k--:0,j=sa[Rank[i]-1]; r[i+k]==r[j+k]; k++) ;
    return ;
}
int RMQ[maxn],mm[maxn],best[20][maxn];
void initRMQ(int n)//初始化RMQ
{
    for(int i=1; i<=n; i++) RMQ[i]=h[i];
    mm[0]=-1;
    for(int i=1; i<=n; i++)
        mm[i]=((i&(i-1))==0)?mm[i-1]+1:mm[i-1];
    for(int i=1; i<=n; i++) best[0][i]=i;
    for(int i=1; i<=mm[n]; i++)
        for(int j=1; j+(1<<i)-1<=n; j++)
        {
            int a=best[i-1][j];
            int b=best[i-1][j+(1<<(i-1))];
            if(RMQ[a]<RMQ[b]) best[i][j]=a;
            else best[i][j]=b;
        }
}
int askRMQ(int a,int b)
{
    int t;
    t=mm[b-a+1];
    b-=(1<<t)-1;
    a=best[t][a],b=best[t][b];
    return RMQ[a]<RMQ[b]?a:b;
}
int lcp(int a,int b)//询问a,b后缀的最长公共前缀
{
    a=Rank[a],b=Rank[b];
    if(a>b) swap(a,b);
    return h[askRMQ(a+1,b)];
}
int sa[maxn],r[maxn];
int judge_Find(int l,int r)//判断从l到r这段区间是否满足条件
{
    if(r-l<=n/2) return 0;//长度不够
    int flag[110],cont=0;
    memset(flag,0,sizeof(flag));
    for(int i=l; i<r; i++)
    {
        int z=pos[sa[i]];//该字符是哪个字符串里的
        if(!flag[z]&&z!=0)//判断该字符串是否出现过
        {
            cont++;//个数加1
            flag[z]=1;//标记为出现过
        }
    }
    return cont>n/2;
}
int Find(int mid,int print)
{
    int l=0;
    for(int r=1; r<=nn; r++)
    {
        if(h[r]<mid||r==nn)//不满足分组条件
        {
            if(judge_Find(l,r))//判断前一个分组是否满足条件
            {
                if(print)//输出答案
                {
                    for(int i=sa[l]; i<sa[l]+mid; i++) printf("%c",x[i]+'a'-1);
                    printf("\n");
                }
                else return 1;
            }
            l=r;//更新左区间
        }
    }
    return 0;
}
int main()
{
    while(~scanf("%d",&n)&&n)
    {
        int cont=0,cnt=0;
        for(int i=0; i<n; i++)
        {
            scanf("%s",str);
            for(int j=0; j<strlen(str); j++)
            {
                pos[cont]=i+1;//给每一个字符编号,同一个字符串里的字符编号相同
                x[cont++]=str[j]-'a'+1;
            }
            x[cont++]=i+100;
        }
        pos[cont]=0;
        x[cont++]=0;
        nn=cont;
        da(x,sa,nn,300);
        get_height(x,sa,nn-1);
        if(n==1)//特判长度为一
        {
            printf("%s\n\n",str);
            continue;
        }
        if(!Find(1,0))//长度为1无解则说明无解
        {
            printf("?\n\n");
            continue;
        }
        int l=1,r=strlen(str),ans=0;
        while(l<=r)
        {
            int mid=(l+r)>>1;
            if(Find(mid,0)) l=mid+1,ans=mid;
            else r=mid-1;
        }
        Find(ans,1);
        printf("\n");
    }
}
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值