codeforces 123 D String(后缀自动机 SAM)

本文介绍了一种使用后缀自动机解决特定字符串问题的方法。该问题要求计算一个字符串中所有子串出现次数的累加和。通过构建后缀自动机并采用拓扑排序更新子串出现次数,实现了高效求解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

http://codeforces.com/problemset/problem/123/D

题意:给你一个字符串S,定义一个函数F(S,x),其中x为S中的字串,F(S,x)的定义太麻烦啦,其实就是设x在S中出现了n次,则F(S,x)=n*(n+1)/2。要你求对于所有的x,F(S,x)的和。

 

思路:裸的后缀自动机吧,首先设num为SAM中一个状态所表示的子串的出现次数,这个由拓扑排序然后自底向上更新即可,然后对于每一个状态(设为p),它所表示的串一共有p->val-p->par->val+1个,然后再乘上p->num*(p->num+1)/2就得到了对于状态p中F(S,x)的和。(这里的x是p状态所标示的子串),然后对于每一个状态都这么求,就可以得到答案了。因为SAM的状态数是O(n)的,所以时间复杂度也为O(n)的。下面是代码。

#include <iostream>
#include <string.h>
#include <stdio.h>
#define maxn 200010
#define Smaxn 26
#define inf 21000000
using namespace std;
struct node
{
    node *par,*go[Smaxn];
    int num;
    int val;
}*root,*tail,que[maxn],*top[maxn];
int tot;
char str[100010];
void add(int c,int l)
{
    node *p=tail,*np=&que[tot++];
    np->val=l;
    while(p&&p->go[c]==NULL)
    p->go[c]=np,p=p->par;
    if(p==NULL) np->par=root;
    else
    {
        node *q=p->go[c];
        if(p->val+1==q->val) np->par=q;
        else
        {
            node *nq=&que[tot++];
            *nq=*q;
            nq->val=p->val+1;
            np->par=q->par=nq;
            while(p&&p->go[c]==q) p->go[c]=nq,p=p->par;
        }
    }
    tail=np;
}
int c[maxn],len;
void init()
{
    memset(que,0,sizeof(que));
    tot=0;
    len=1;
    root=tail=&que[tot++];
}
void solve()
{
    memset(c,0,sizeof(c));
    int i;
    for(i=0;i<tot;i++)
    c[que[i].val]++;
    for(i=1;i<len;i++)
    c[i]+=c[i-1];
    for(i=0;i<tot;i++)
    top[--c[que[i].val]]=&que[i];
    for(node *p=root;;p=p->go[str[p->val]-'a'])
    {
        p->num=1;
        if (p->val==len-1)break;
    }
    for(i=tot-1;i>=0;i--)
    {
        node *p=top[i];
        if(p->par)
        {
            node *q=p->par;
            q->num+=p->num;
        }
    }
    long long ans=0;
    for(i=1;i<tot;i++)
    {
        node *p=top[i];
        int tmp=p->val-p->par->val,sum=p->num;
        ans+=(long long)tmp*((long long)sum*(sum+1)/2);
    }
    printf("%I64d\n",ans);
}
int main()
{
    freopen("dd.txt","r",stdin);
    scanf("%s",str);
    int l=strlen(str),i;
    init();
    for(i=0;i<l;i++)
    {
        add(str[i]-'a',len++);
    }
    solve();
    return 0;
}


 

### Codeforces Edu 后缀数组教程概述 后缀数组是一种用于字符串处理的强大工具,它能够高效地解决许多涉及子串匹配、模式查找等问题。以下是基于已知引用内容以及专业知识对Codeforces Edu中的后缀数组相关内容的解析。 #### 什么是后缀数组? 后缀数组是一个一维数组,存储了一个字符串的所有后缀按字典序排列后的起始位置索引。通过构建后缀数组,可以快速实现诸如最长公共前缀(LCP)、子串查询等功能[^1]。 #### 构建后uffix Array 的方法 一种常见的构建方式是倍增算法 (Doubling Algorithm),其核心思想是以长度逐步加倍的方式比较字符串的后缀。具体过程如下: - 初始化每个字符作为独立的一级排名; - 基于当前等级计算下一等级的排名,直到所有后缀都能被唯一区分为止。 下面是使用 C++ 实现的一个简单例子: ```cpp #include <bits/stdc++.h> using namespace std; const int MAXN = 1e5 + 7; int sa[MAXN], rank_arr[MAXN], tmp_rank[MAXN]; bool cmp_sa(int *rank, int i, int j, int k){ if(rank[i]!=rank[j])return rank[i]<rank[j]; int ri=(i+k<=strlen(s))?rank[i+k]:-1; int rj=(j+k<=strlen(s))?rank[j+k]:-1; return ri<rj; } void build_suffix_array(string &s,int n){ for(int i=0;i<n;i++)sa[i]=i,rank_arr[i]=s[i]-'a'; for(int k=1;k<n;k<<=1){ sort(sa,sa+n,[&](const int &a,const int &b)->bool{ return cmp_sa(rank_arr,a,b,k); }); tmp_rank[sa[0]]=0; for(int i=1;i<n;i++) tmp_rank[sa[i]] = tmp_rank[sa[i-1]]+(cmp_sa(rank_arr,sa[i-1],sa[i],k)?1:0); for(int i=0;i<n;i++)rank_arr[i]=tmp_rank[i]; if(tmp_rank[sa[n-1]]==n-1)break; } } // Example usage: string s="banana"; build_suffix_array(s,s.length()); ``` 此代码片段展示了如何利用倍增策略来创建一个基本的 suffix array 结构[^2]。 #### LCP 数组及其应用 为了进一步提升效率,在实际问题求解过程中通常还需要配合 Longest Common Prefix (LPC) 数组一起工作。Kasai’s algorithm 是一种线性时间内构造 LCP 数组的有效方法之一。 下面展示的是 Kasai 算法的具体实现: ```cpp vector<int> kasai(const string &str, const vector<int> &suffixArray){ int n=str.size(); // Compute inverse of suffix array vector<int> invSuff(n,0); for(int i=0;i<n;i++)invSuff[suffixArray[i]]=i; int lcp=0; vector<int>lcpArr(n,0); for(int i=0;i<n;i++){ if(invSuff[i]==(n-1)){ lcp=0; continue; } int j=suffixArray[invSuff[i]+1]; while(i+lcp<n && j+lcp<n && str[i+lcp]==str[j+lcp]){ ++lcp; } lcpArr[invSuff[i]]=lcp; if(lcp>0)--lcp; } return lcpArr; } ``` 上述函数接受原始字符串 `str` 和已经生成好的 Suffix Array (`suffixArray`) ,返回对应位置上的最大公共前缀值列表[^3]。 #### §相关问题§ 1. 如何优化现有的后缀数组构建算法使其适用于更大数据集? 2. 在哪些场景下适合采用后缀自动机而不是传统的后缀数组技术解决问题 ? 3. 是否可以通过 STL 中某些特定容器简化自定义数据结构的设计 ? 如果可能的话 , 提供相应实例说明 . 4. 探讨一下当面对多模式匹配任务时 , 使用 Aho-Corasick 自动机相比单纯依赖后缀数组的优势在哪里 。 5. 解释为什么有时候我们需要预处理额外的信息比如 height 数组或者 RMQ 来加速区间询问操作?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值