[BZOJ3473]字符串-后缀自动机

最新推荐文章于 2019-04-01 19:43:00 发布

原创最新推荐文章于 2019-04-01 19:43:00 发布 · 395 阅读

1 ·

CC 4.0 BY-SA版权

后缀自动机【Suffix Automaton】专栏收录该内容

9 篇文章

订阅专栏

本文介绍了一种使用广义后缀自动机(SAM)解决字符串子串计数问题的方法。针对给定的多个字符串，算法通过构建广义SAM并遍历各个字符串，统计每个字符串中有多少子串出现在至少k个字符串中。文章详细解释了实现过程，并提供了一个完整的C++代码示例。

字符串

Description

给定n个字符串，询问每个字符串有多少子串（不包括空串）是所有n个字符串中至少k个字符串的子串？

Input

第一行两个整数n，k。
接下来n行每行一个字符串。

Output

一行n个整数，第i个整数表示第i个字符串的答案。

Sample Input

3 1
abc
a
ab

Sample Output

6 1 3

HINT

对于 100% 的数据，1<=n，k<=10^5，所有字符串总长不超过10^5，字符串只包含小写字母。

Source

Adera 1 杯冬令营模拟赛

想不到如何不用set去重，直到看到了dalao的博客……
果然蒟蒻就是蒟蒻QAQ

思路:
考虑建一个广义的SAM。
然后对于每个串的子串的出现次数，只要将该子串在SAM上跑一遍，统计沿路状态出现在不同串中的次数即可~

考虑如何统计。
首先对于每个状态，维护一个出现次数。
然后在建好的SAM上跑一边所有的串，每到一个状态就把当前状态及其fail树上的所有父亲状态的出现次数+1。
同时，给每个位置维护一个“上一个拜访的串”，如果某个状态之前未被当前串拜访过，则这个状态允许被修改出现次数，否则不能修改。

然后据此来一发DP，按拓扑序求出每个状态的答案:
首先每个状态需要继承子节点的答案。
然后，对于一个节点的每个子节点，若子节点出现次数符合条件，则贡献额外增加当前节点与子节点之间的长度差。

统计时，对于每个串，累加沿途答案即可~

#include<bits/stdc++.h>
using namespace std;

typedef long long ll;
const int N=1e5+9;
const int K=27;

int n,k;
string s[N];

namespace sam
{
    int ch[N<<1][K],fa[N<<1],len[N<<1];
    int u,tot,las[N<<1],cnt[N<<1];
    int buc[N],id[N<<1];
    ll f[N<<1];

    inline void init(){u=tot=1;}
    inline void reset(){u=1;}

    inline void add(int v)
    {
        int now=++tot;
        len[now]=len[u]+1;

        while(u && !ch[u][v])
            ch[u][v]=now,u=fa[u];
        if(!u)
            fa[now]=1;
        else
        {
            int q=ch[u][v];
            if(len[q]==len[u]+1)
                fa[now]=q;
            else
            {
                int newq=++tot;
                memcpy(ch[newq],ch[q],sizeof(ch[q]));
                len[newq]=len[u]+1;
                fa[newq]=fa[q];
                fa[q]=fa[now]=newq;

                while(u && ch[u][v]==q)
                    ch[u][v]=newq,u=fa[u];
            }
        }
        u=now;
    }

    inline void work()
    {
        memset(buc,0,sizeof(buc));
        for(int i=1;i<=tot;i++)
            buc[len[i]]++;
        for(int i=1;i<N;i++)
            buc[i]+=buc[i-1];
        for(int i=tot;i>=1;i--)
            id[--buc[len[i]]]=i;
    }
}

using namespace sam;

int main()
{
    init();
    scanf("%d%d",&n,&k);
    for(int i=1;i<=n;i++)
    {
        cin>>s[i];reset();
        for(int j=0,e=s[i].length();j<e;j++)
            add(s[i][j]-'a');
    }

    work();
    for(int i=1;i<=n;i++)
        for(int now=1,j=0,e=s[i].length();j<e;j++)
        {
            now=ch[now][s[i][j]-'a'];
            for(int p=now;p && las[p]!=i;p=fa[p])
                cnt[p]++,las[p]=i;
        }

    for(int i=1;i<=tot;i++)
        f[id[i]]=f[fa[id[i]]]+(cnt[id[i]]>=k?len[id[i]]-len[fa[id[i]]]:0);

    for(int i=1;i<=n;i++)
    {
        ll ans=0;
        for(int now=1,j=0,e=s[i].length();j<e;j++)
            ans+=f[now=ch[now][s[i][j]-'a']];
        printf("%lld ",ans);
    }
    puts("");

    return 0;
}