【TJOI2013】【BZOJ3172】单词

最新推荐文章于 2022-06-17 14:49:16 发布

原创最新推荐文章于 2022-06-17 14:49:16 发布 · 2.7k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#后缀自动机 #模式串匹配

随便搞搞同时被 2 个专栏收录

403 篇文章

订阅专栏

模板题库

91 篇文章

订阅专栏

本文介绍了一种使用后缀自动机解决单词频率统计的方法。通过将所有单词串联，并插入特殊字符进行区分，构建后缀自动机来高效计算每个单词在论文中的出现次数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Description

某人读论文，一篇论文是由许多单词组成。但他发现一个单词会在论文中出现很多次，现在想知道每个单词分别在论文中出现多少次。

Input

第一个一个整数N,表示有多少个单词，接下来N行每行一个单词。每个单词由小写字母组成，N<=200,单词长度不超过10^6

Output

输出N个整数，第i行的数字表示第i个单词在文章中出现了多少次。

Sample Input

aaa
Sample Output

1
HINT

Source

AC自动机裸题.然而我太弱了不会AC自动机只会用后缀自动机来做模式串匹配QAQ
这傻逼题说单词10^6实际上是文章所有单词总长度10^6。
把所有单词串一起之间插个字符集之外的字符,然后建立后缀自动机
对每个状态求出right集合大小然后进去匹配就行了
匹配到最后输出right集合大小,中途出现匹配不上的情况就输出0.

#include<iostream>
#include<cstdio>
#include<cstring>
#include<cmath>
#include<algorithm>
#define MAXN 2001000
using namespace std;
char ch[MAXN>>1],temp[MAXN>>1];
int pos,n;
int c[MAXN>>1],od[MAXN];
struct sam
{
    int p,q,np,nq,last,cnt;
    int a[MAXN][30],fa[MAXN],len[MAXN],size[MAXN],right[MAXN];
    sam()
    {
        last=++cnt;
    }
    inline void insert(int c)
    {
        p=last;np=last=++cnt;len[np]=len[p]+1;right[np]=1;
        while (!a[p][c]&&p) a[p][c]=np,p=fa[p];
        if (!p) fa[np]=1;
        else
        {
            q=a[p][c];
            if (len[q]==len[p]+1)   fa[np]=q;
            else
            {
                nq=++cnt;len[nq]=len[p]+1;
                memcpy(a[nq],a[q],sizeof(a[q]));
                fa[nq]=fa[q];fa[q]=fa[np]=nq;
                while (a[p][c]==q)  a[p][c]=nq,p=fa[p];
            }
        }
    }
    inline void init()
    {
        for (int i=1;i<=cnt;i++)    c[len[i]]++;
        int L=strlen(ch);
        for (int i=1;i<=L;i++)  c[i]+=c[i-1];
        for (int i=cnt;i;i--)   od[c[len[i]]--]=i;
        for (int i=cnt;i;i--)
        {
            int x=od[i];
            right[fa[x]]+=right[x];
        }
    }
    inline int find(char *s,int len)
    {
        int now=1;
        for (int i=0;i<len;i++)
            if (a[now][s[i]-'a'])   now=a[now][s[i]-'a'];
            else    return 0;
        return right[now];
    }
}sam;
int main()
{
    scanf("%d",&n);
    for (int i=1;i<=n;i++)
    {
        scanf("%s",ch+pos);
        pos=strlen(ch);
        ch[pos++]=(char)('z'+1);
    }
    int len=strlen(ch);
    for (int i=0;i<len;i++) sam.insert(ch[i]-'a');
    sam.init();
    int i=0,num;
    char c;
    while (i<len)
    {
        num=0;c=ch[i++];
        while (i<len&&(int)(c-'z')==1)  c=ch[i++];
        while (i<len&&(int)(c-'z')<1)   temp[num++]=c,c=ch[i++];
        printf("%d\n",sam.find(temp,num));
    }
}