【CF】700E Cool Slogans 后缀自动机&DP&贪心&线段树可持久化合并

最新推荐文章于 2020-06-12 22:01:49 发布

ccosi

最新推荐文章于 2020-06-12 22:01:49 发布

阅读量308

点赞数

CC 4.0 BY-SA版权

分类专栏： -------DP------- 妙 -------字符串------- 后缀自动机 -------数据结构------- 线段树可持久化合并 DP 贪心

本文链接：https://blog.youkuaiyun.com/corsica6/article/details/81672967

-------数据结构------- 同时被 3 个专栏收录

127 篇文章

订阅专栏

-------DP-------

114 篇文章

订阅专栏

妙

96 篇文章

订阅专栏

本文详细介绍了如何使用后缀自动机、动态规划、贪心策略和可持久化线段树解决Codeforces 700E问题。通过分析字符串子串序列，探讨了如何利用后缀自动机的fail树性质进行状态转移，并利用线段树优化查找过程，以求得序列的最大长度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

传送门：codeforces700E

题解

做这道题时又发现自己对后缀自动机的理解还不够深刻。。。

简单说一下题意，给定一个字符串，求一个子串序列 $s_1,s_2,s_3...$ ，满足序列中 $s_i$ 在 $s_{i+1}$ 中至少出现了两次(出现的范围之间可以相交，起始点不同即可)，要求输出子串序列的最大长度。

设 $f [i]$ 表示第 $i$ 个子串能排在序列中的最大下标。

那么每个满足第 $i$ 个子串出现两次以上的子串的 $f [j]$ 便可以用 $f [i] + 1$ 来更新答案。

考虑最简的一个子串 $f [x] = k$ 必然存在 $s_x$ 左端和右端分别都是一个满足 $f [x^{'}] = k - 1$ 的子串。因为如果不是，我们删去子串两端的字符，并不会使 $f [x]$ 减小，直到删成两端都满足 $f [x^{'}] = k - 1$ ，而这两端的子串 $x^{'}$ ，自身的两端同样满足 $f [x^{''}] = k - 2$ 。一直这样迭代到 $f[x'''^{...}]=1$ 。

所以一个 $f [x] = k$ 的子串 $x$ 必然可以由一个它的一个出现过两次以上的后缀 $f [x^{''}] = k - 1$ 转移而得。

每个子串的出现位置，后缀递推的统计和处理在这里体现出来。所以联想到后缀自动机， $f a i l$ 树上的每个节点恰好是 $r i g h t$ 数组相同的一些子串的集合。所以 $d p$ 的时候不需要记录子串，而是以每个节点来代表相同的 $f [x]$ 。寻找子串的过程恰是由 $f a i l$ 树上的祖先寻找最大值的过程。

进一步考虑，后缀自动机上的一个节点 $x$ ，其 $f a i l$ 树上的祖先均为它的后缀，存在一个 $r i g h t$ 集合真包含的关系，那么 $f a i l$ 树中随深度的增加， $f [x]$ 必然是单调不降的(若 $x$ 的一个子串存在 $f [x^{'}] = k$ ，即使只出现了一次， $f [x]$ 也必然不小于 $k$ )。而且每层之间，存在 $f[x]-f[fail_x]\leq 1$ 。只要 $x$ 的祖先中存在任何一个 $f[fail_x]=k$ 的节点中的子串，在 $x$ 节点的子串集合中出现过至少两次，就存在 $f [x] = k + 1$ 。考虑到节点子串之间的真包含关系，它们的 $r i g h t$ 集合显然是越大越好，这样更可能出现两次。所以这里可以贪心记录 $x$ 的祖先中深度最浅(也即子串最长长度最小)的满足 $f[fail_x]=k$ 节点 $pos[fail_x]$ 来判断出现，如果这个子串集合都没能出现两次及以上，它的子节点自然也不能，那么 $f [x] = k$ ，反之如果出现了两次及以上， $f [x] = k + 1$ 。
考虑这个过程中需要用到每个节点的出现集合(右端点)。可以对每个节点建立线段树，再由叶子节点不断向上合并，建可持久化线段树。

这里建主席树看别人代码时发现一个很巧妙的优化，因为祖先必然在后缀中出现一次，我们 $q u e r y$ 寻找出现的时候只需要判断除开结束点以外在 $mx[pos[fail_x]]+num[x]-mx[x],num[x]-1]$ 这个区间是否出现即可。这样线段树上不需要记录任何信息，只需要判断动态加点线段树上这个节点是否存在即可，这样也很好合并线段树。

代码

#include<bits/stdc++.h>
#define mid (((l)+(r))>>1)
using namespace std;
const int N=4e5+100,M=1e7+100;
int n,f[N],mx[N],ch[N][26],c[N],sa[N];
int dp[N],pos[N],num[N];
int cnt=1,cur=1,p,q,ans=1;
char s[N];
int rt[N],ls[M],rs[M],tot;

inline void insert(int alp,int id)
{
    p=cur;cur=++cnt;mx[cur]=id;num[cur]=id;
    for(;!ch[p][alp] && p;p=f[p]) ch[p][alp]=cur;
    if(!p) f[cur]=1;else{
    	q=ch[p][alp];
    	if(mx[q]==mx[p]+1) f[cur]=q;else{
    		mx[++cnt]=mx[p]+1;num[cnt]=id;
    		f[cnt]=f[q];f[q]=f[cur]=cnt;
    		memcpy(ch[cnt],ch[q],sizeof(ch[q]));
    		for(;ch[p][alp]==q;p=f[p]) ch[p][alp]=cnt;
    	}
    }
}

inline void ad(int &k,int l,int r,int tag)
{
	if(!k) k=++tot;
	if(l==r) return;
	if(tag<=mid) ad(ls[k],l,mid,tag);
	else ad(rs[k],mid+1,r,tag);
}

inline int merge(int x,int y)
{
	if(!x || !y) return x+y;
	int d=++tot;
	ls[d]=merge(ls[x],ls[y]);
	rs[d]=merge(rs[x],rs[y]);
	return d;
}

inline int query(int k,int l,int r,int L,int R)
{
	if(!k) return 0;
	if(l==r) return 1;
	if(L<=mid) if(query(ls[k],l,mid,L,R)) return 1;
	if(R>mid) if(query(rs[k],mid+1,r,L,R)) return 1;
	return 0;
}

int main(){
    int i,j,x;
    scanf("%d%s",&n,s+1);
    for(i=1;i<=n;++i) insert(s[i]-'a',i);
    for(i=1;i<=cnt;++i) c[mx[i]]++;
    for(i=1;i<=n;++i) c[i]+=c[i-1];
    for(i=cnt;i>1;--i) sa[c[mx[i]]--]=i;
    for(i=cnt;i>1;--i){
    	x=sa[i];
    	ad(rt[x],1,n,num[x]);
    	rt[f[x]]=merge(rt[f[x]],rt[x]);
    }
    for(i=2;i<=cnt;++i){
    	x=sa[i];
    	if(f[x]==1){dp[x]=1;pos[x]=x;continue;}
    	if(query(rt[pos[f[x]]],1,n,mx[pos[f[x]]]+num[x]-mx[x],num[x]-1))
    		dp[x]=dp[f[x]]+1,pos[x]=x;
    	else dp[x]=dp[f[x]],pos[x]=pos[f[x]];
    	ans=max(ans,dp[x]);
    }
    printf("%d\n",ans);
}