后缀自动机

本文深入探讨了字符串匹配领域的Suffix Array Matching (SAM)算法,详细解析了SAM的构建过程、关键数据结构如状态链接树、拓扑排序等,并展示了如何利用SAM解决复杂字符串问题,包括求不同字串个数、求每个状态的endpos数量、求多个串的不同字串的十进制和、求每个endpos集合里的最大值和最小值、求长度为k的公共子串出现次数等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

求本质不同的字串个数

\sum maxlen(st)-maxlen(link[st])

#include<iostream>
#include<cstdio>
#include<cstring>
using namespace std;
const int N=1000000+10;
char s[N];
int len[2*N],tr[2*N][32],link[2*N],con=2,last=1;
void add(int c)
{
    int p,now=con++;
    len[now]=len[last]+1;
    for(p=last;p&&!tr[p][c];p=link[p])
        tr[p][c]=now;
    last=now;
    if(!p)
    link[now]=1;
    else
    {
        if(len[tr[p][c]]==len[p]+1)
        link[now]=tr[p][c];
        else
        {
            int ne=con++,r=tr[p][c];
            link[ne]=link[r];
            link[now]=link[r]=ne;
            len[ne]=len[p]+1;
            memcpy(tr[ne],tr[r],sizeof(tr[ne]));
            while(p&&tr[p][c]==r)
            {
                tr[p][c]=ne;
                p=link[p];
            }
        }
    }
}
int main()
{
    freopen("1.txt","r",stdin);
    scanf("%s",s);
    int l=strlen(s);
    for(int i=0;i<l;++i)
        add(s[i]-'a');
    long long ans=0;
    /*for(int i=1;i<con;++i)
    {
        for(int j=0;j<26;++j)
        if(tr[i][j])
        cout<<i<<' '<<tr[i][j]<<endl;
    }*/
    for(int i=2;i<con;++i)
    ans+=len[i]-len[link[i]];
    cout<<ans<<endl;
    return 0;
}

求每个状态的endpos数量

 在link边构成的DAG上进行拓扑排序递推,主干点的endpos值要加1.

#include<iostream>
#include<cstdio>
#include<cstring>
#include<queue>
using namespace std;
typedef long long ll;
const int N=1e6+10;
int len[2*N],link[2*N],tr[2*N][32],con=2,last=1,deg[2*N],endpos[2*N],ans[N];
char s[N];
int add(int c)
{
    int now=con++,p;
    len[now]=len[last]+1;
    for(p=last;p&&!tr[p][c];p=link[p])
        tr[p][c]=now;
    last=now;
    if(!p)link[now]=1;
    else
    {
        int r=tr[p][c];
        if(len[r]==len[p]+1)link[now]=r;
        else
        {
            int ne=con++;
            len[ne]=len[p]+1;
            link[ne]=link[r];
            link[now]=link[r]=ne;
            memcpy(tr[ne],tr[r],sizeof(tr[ne]));
            while(p&&tr[p][c]==r)
            {
                tr[p][c]=ne;
                p=link[p];
            }
        }
    }
    return now;
}
void bfs()//link图的拓扑排序
{
    queue<int>q;
    for(int i=1;i<con;++i)
    if(!deg[i])q.push(i);
    while(!q.empty())
    {
        int now=q.front();q.pop();
        deg[link[now]]--;
        endpos[link[now]]+=endpos[now];
        if(!deg[link[now]])
        q.push(link[now]);
    }
}
int main()
{
 //   freopen("1.txt","r",stdin);
    scanf("%s",s);
    int l=strlen(s);
    for(int i=0;i<l;++i)
        endpos[add(s[i]-'a')]++;
    for(int i=1;i<con;++i)
    deg[link[i]]++;
    bfs();
    //长度分别为1-l的字串的最大出现次数
    for(int i=1;i<con;++i)
    ans[len[i]]=max(ans[len[i]],endpos[i]);
    for(int i=l-1;i>0;--i)
    ans[i]=max(ans[i],ans[i+1]);
    for(int i=1;i<=l;++i)
    printf("%d\n",ans[i]);
    return 0;
}

求多个串的不同字串的十进制和

  串和串之间用特殊字符拼接,求和时按拓扑排序递推,不能经过特殊字符的边,也不能算包含特殊字符的字串

#include<iostream>
#include<cstdio>
#include<cstring>
#include<queue>
using namespace std;
typedef long long ll;
const int N=2e6+10;
const ll mod=1e9+7;
int len[2*N],link[2*N],tr[2*N][16],con=2,last=1,deg[2*N],road[2*N];
ll sum[2*N],ans=0;
char s[N];
void add(int c)
{
    int now=con++,p;
    len[now]=len[last]+1;
    for(p=last;p&&!tr[p][c];p=link[p])
    {
        tr[p][c]=now;
        deg[now]++;
    }
    last=now;
    if(!p)link[now]=1;
    else
    {
        int r=tr[p][c];
        if(len[r]==len[p]+1)link[now]=r;
        else
        {
            int ne=con++;
            len[ne]=len[p]+1;
            link[ne]=link[r];
            link[now]=link[r]=ne;
            memcpy(tr[ne],tr[r],sizeof(tr[ne]));
            for(int i=0;i<11;++i)
            if(tr[ne][i])deg[tr[ne][i]]++;
            while(p&&tr[p][c]==r)
            {
                deg[r]--;
                deg[ne]++;
                tr[p][c]=ne;
                p=link[p];
            }
        }
    }
}
void bfs()
{
    queue<int>q;
    for(int i=1;i<con;++i)
    {
      //  cout<<i<<' '<<deg[i]<<endl;
        if(!deg[i])
        {
           // cout<<i<<endl;
            q.push(i);
            road[i]=1;
        }
    }
    while(!q.empty())
    {
        int now=q.front();q.pop();
        ans=(ans+sum[now])%mod;
        for(int i=0;i<10;++i)
        {
            int y=tr[now][i];
            if(y)
            {
                sum[y]+=(sum[now]*10%mod+road[now]*i)%mod;
                road[y]+=road[now];
                deg[y]--;
                if(!deg[y])
                q.push(y);
            }
        }
        if(tr[now][10])
        {
                deg[tr[now][10]]--;
                if(!deg[tr[now][10]])
                q.push(tr[now][10]);            
        }
    }
}
int main()
{
   // freopen("1.txt","r",stdin);
    int n;cin>>n;
    for(int i=0;i<n;++i)
    {
        scanf("%s",s);
        //cout<<s<<endl;
        int l=strlen(s);
       // if(i!=n-1)
        s[l++]='9'+1;
        for(int j=0;j<l;++j)
        add(s[j]-'0');
    }
    bfs();
    printf("%d\n",ans);
    return 0;
}

求每个endpos集合里的最大值和最小值

    在线性构造SAM时,每个新状态记录一次当前最右位置.SAM构造完成后,从maxlen大的状态开始递推更新最大和最小值,相当于link树上自底向上的拓扑顺序.

#include<iostream>
#include<cstdio>
#include<algorithm>
#include<cstring>
using namespace std;
const int N=2e4+10;
int len[N*2],tr[2*N][180],link[N*2],l[N*2],r[N*2],last,con,Rank[2*N];
void add(int c,int h)
{
    int now=con++,p;
    len[now]=len[last]+1;
    l[now]=r[now]=h;
    for(p=last;p&&!tr[p][c];p=link[p])
    tr[p][c]=now;
    last=now;
    if(!p)link[now]=1;
    else
    {
        int r1=tr[p][c];
        if(len[p]+1==len[r1])link[now]=r1;
        else
        {
            int ne=con++;
            l[ne]=l[r1];    
            r[ne]=h;
            len[ne]=len[p]+1;
            link[ne]=link[r1];
            link[now]=link[r1]=ne;
            for(int i=0;i<180;++i)
            tr[ne][i]=tr[r1][i];
            while(p&&tr[p][c]==r1)
            {
                tr[p][c]=ne;
                p=link[p];
            }
        }
    }
}
bool cmp(int a,int b)
{return len[a]>len[b];}
int main()
{
    int n;
    while(cin>>n&&n)
    {
        last=1,con=2;
        memset(tr,0,sizeof(tr));
        for(int i=0;i<n;++i)
        {
            int a;scanf("%d",&a);
            add(a,i);
        }
        int ans=0;
        for(int i=2;i<con;++i)
            Rank[i]=i;
        sort(Rank+2,Rank+con,cmp);
        for(int i=2;i<con;++i)
        {
            int j=Rank[i];
            r[link[j]]=max(r[link[j]],r[j]);
            l[link[j]]=min(l[link[j]],l[j]);
        }
        for(int i=2;i<con;++i)//最长不重叠重复字串
        {
            if(r[i]-l[i]==len[i])
            ans=max(ans,len[i]-1);
            else
            ans=max(ans,min(r[i]-l[i],len[i]));
        }
    }
    return 0;
}

 求每个状态Endpos集合内的元素的第k大

 类似求Endpos的大小,通过拓扑排序在link树上自底向上合并,并用权值线段树维护,每个状态需要一棵权值线段树.

 

#include<iostream>
#include<cstdio>
#include<cstring>
#include<queue>
using namespace std;
typedef long long ll;
const int N=1e5+10;
int len[2*N],link[2*N],tr[2*N][32],con=2,last=1,deg[2*N],pos[2*N],n,rt[2*N],sta=1,par[2*N][32],rk[N];
char s[N];
struct node
{
    int l,r,v;
}tree[N*200];
int add(int c)
{
    int now=con++,p;
    len[now]=len[last]+1;
    for(p=last;p&&!tr[p][c];p=link[p])
        tr[p][c]=now;
    last=now;
    if(!p)link[now]=1;
    else
    {
        int r=tr[p][c];
        if(len[r]==len[p]+1)link[now]=r;
        else
        {
            int ne=con++;
            len[ne]=len[p]+1;
            link[ne]=link[r];
            link[now]=link[r]=ne;
            memcpy(tr[ne],tr[r],sizeof(tr[ne]));
            while(p&&tr[p][c]==r)
            {
                tr[p][c]=ne;
                p=link[p];
            }
        }
    }
    return now;
}
void build(int l,int r,int &now,int x)//维护link树的叶子节点
{
    if(!now)
    now=sta++;
    tree[now].v++;
    if(l==r)
    return;
    int mid=(l+r)>>1;
    if(x<=mid)
    build(l,mid,tree[now].l,x);
    else
    build(mid+1,r,tree[now].r,x);
}
int change(int l,int r,int n1,int n2)//合并两棵树
{
    if(!n1||!n2)
    return n1|n2;
    int now=sta++,mid=(l+r)>>1;
    tree[now].l=change(l,mid,tree[n1].l,tree[n2].l);
    tree[now].r=change(mid+1,r,tree[n1].r,tree[n2].r);    
    tree[now].v=tree[tree[now].l].v+tree[tree[now].r].v;
    return now;
}
int query(int l,int r,int now,int k)
{
    if(l==r)
    return l;
    int mid=(l+r)>>1;
    if(tree[tree[now].l].v>=k)
    return query(l,mid,tree[now].l,k);
    else
    return query(mid+1,r,tree[now].r,k-tree[tree[now].l].v);
}
void bfs()//link图的拓扑排序
{
    queue<int>q;
    for(int i=1;i<con;++i)
    {
        if(!deg[i])
            q.push(i);
        if(pos[i])
        build(1,n,rt[i],pos[i]);
    }
    while(!q.empty())
    {
        int now=q.front();q.pop();
        deg[link[now]]--;
        rt[link[now]]=change(1,n,rt[link[now]],rt[now]);
        if(!deg[link[now]])
        q.push(link[now]);
    }
}
int main()
{
   // freopen("1.txt","r",stdin);
    int t;cin>>t;
    while(t--)
    {
        int q;cin>>n>>q;
        scanf("%s",s+1);
        int l=strlen(s+1);
        for(int i=1;i<=l;++i)
        {
            rk[i]=add(s[i]-'a');
            pos[rk[i]]=i;
        }
        for(int i=1;i<con;++i)
        deg[link[i]]++;
        bfs();
        for(int i=1;i<con;++i)
        par[i][0]=link[i];
        for(int i=1;i<25;++i)
            for(int j=1;j<con;++j)
            par[j][i]=par[par[j][i-1]][i-1];
        while(q--)
        {
            int r,k;
            scanf("%d%d%d",&l,&r,&k);
           int now=rk[r];
            int leng=r-l+1;
            for(int i=24;i>=0;--i)
            {
                if(len[par[now][i]]>=leng)
                now=par[now][i];
            }
            if(tree[rt[now]].v<k)
            printf("%d\n",-1);
            else
            printf("%d\n",query(1,n,rt[now],k)+l-r);
        }
        for(int i=1;i<sta;++i)
        tree[i].l=tree[i].r=tree[i].v=0;
        sta=last=1;
        con=2;
        memset(rt,0,sizeof(rt));
        memset(tr,0,sizeof(tr));
        memset(pos,0,sizeof(pos));
    }
    return 0;
}

 求长度为k的公共子串出现次数

#include<iostream>
#include<cstdio>
#include<cstring>
#include<queue>
using namespace std;
typedef long long ll;
const int N=1e5+10;
int len[2*N],link[2*N],tr[2*N][32],con=2,last=1,deg[2*N],ens[2*N],par[2*N][32],vis[2*N];
char s[2*N];
int add(int c)
{
    int now=con++,p;
    len[now]=len[last]+1;
    for(p=last;p&&!tr[p][c];p=link[p])
        tr[p][c]=now;
    last=now;
    if(!p)link[now]=1;
    else
    {
        int r=tr[p][c];
        if(len[r]==len[p]+1)link[now]=r;
        else
        {
            int ne=con++;
            len[ne]=len[p]+1;
            link[ne]=link[r];
            link[now]=link[r]=ne;
            memcpy(tr[ne],tr[r],sizeof(tr[ne]));
            while(p&&tr[p][c]==r)
            {
                tr[p][c]=ne;
                p=link[p];
            }
        }
    }
    return now;
}
void bfs()//link图的拓扑排序
{
    queue<int>q;
    for(int i=1;i<con;++i)
    {
        if(!deg[i])
            q.push(i);
    }
    while(!q.empty())
    {
        int now=q.front();q.pop();
        deg[link[now]]--;
        ens[link[now]]+=ens[now];
        if(!deg[link[now]])
        q.push(link[now]);
    }
}
int main()
{
 //   freopen("1.txt","r",stdin);
   scanf("%s",s);
   int l=strlen(s);
   for(int i=0;i<l;++i)
   {
       ens[add(s[i]-'a')]++;
   }
    for(int i=1;i<con;++i)
    deg[link[i]]++;
     bfs();
    for(int i=1;i<con;++i)
    par[i][0]=link[i];
    for(int i=1;i<25;++i)
        for(int j=1;j<con;++j)
        par[j][i]=par[par[j][i-1]][i-1];
    int t;cin>>t;
    while(t--)
    {
        scanf("%s",s);
        int l=strlen(s);
        int k=l;
        for(int i=l;i<2*l-1;++i)
        {
            s[i]=s[i-l];
        }
        l=2*l-1;
        int ml=0,now=1;
        ll ans=0;
        memset(vis,0,sizeof(vis));
        for(int i=0;i<l;++i)
        {
                while(!tr[now][s[i]-'a']&&now!=1)
                    {now=link[now];ml=len[now];}
                if(tr[now][s[i]-'a'])
                {
                    ml++;
                    now=tr[now][s[i]-'a'];
                    if(ml>=k)
                    {
                        for(int i=24;i>=0;--i)
                        {
                            if(len[par[now][i]]>=k)
                            now=par[now][i];
                        }
                        if(!vis[now])
                        {
                            vis[now]=1;
                            ans+=ens[now];
                        }
                    }                    
                }
                else
                {
                    ml=0;
                }
        }
        printf("%lld\n",ans);
    }
    return 0;
}

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值