传送门:codeforces700E
题解
做这道题时又发现自己对后缀自动机的理解还不够深刻。。。
简单说一下题意,给定一个字符串,求一个子串序列 s 1 , s 2 , s 3 . . . s_1,s_2,s_3... s1,s2,s3...,满足序列中 s i s_i si在 s i + 1 s_{i+1} si+1中至少出现了两次(出现的范围之间可以相交,起始点不同即可),要求输出子串序列的最大长度。
设 f [ i ] f[i] f[i]表示第 i i i个子串能排在序列中的最大下标。
那么每个满足第 i i i个子串出现两次以上的子串的 f [ j ] f[j] f[j]便可以用 f [ i ] + 1 f[i]+1 f[i]+1来更新答案。
考虑最简的一个子串 f [ x ] = k f[x]=k f[x]=k必然存在 s x s_x sx左端和右端分别都是一个满足 f [ x ′ ] = k − 1 f[x']=k-1 f[x′]=k−1的子串。因为如果不是,我们删去子串两端的字符,并不会使 f [ x ] f[x] f[x]减小,直到删成两端都满足 f [ x ′ ] = k − 1 f[x']=k-1 f[x′]=k−1,而这两端的子串 x ′ x' x′,自身的两端同样满足 f [ x ′ ′ ] = k − 2 f[x'']=k-2 f[x′′]=k−2。一直这样迭代到 f [ x ′ ′ ′ . . . ] = 1 f[x'''^{...}]=1 f[x′′′...]=1。
所以一个 f [ x ] = k f[x]=k f[x]=k的子串 x x x必然可以由一个它的一个出现过两次以上的后缀 f [ x ′ ′ ] = k − 1 f[x'']=k-1 f[x′′]=k−1转移而得。
每个子串的出现位置,后缀递推的统计和处理在这里体现出来。所以联想到后缀自动机, f a i l fail fail树上的每个节点恰好是 r i g h t right right数组相同的一些子串的集合。所以 d p dp dp的时候不需要记录子串,而是以每个节点来代表相同的 f [ x ] f[x] f[x]。寻找子串的过程恰是由 f a i l fail fail树上的祖先寻找最大值的过程。
进一步考虑,后缀自动机上的一个节点
x
x
x,其
f
a
i
l
fail
fail树上的祖先均为它的后缀,存在一个
r
i
g
h
t
right
right集合真包含的关系,那么
f
a
i
l
fail
fail树中随深度的增加,
f
[
x
]
f[x]
f[x]必然是单调不降的(若
x
x
x的一个子串存在
f
[
x
′
]
=
k
f[x']=k
f[x′]=k,即使只出现了一次,
f
[
x
]
f[x]
f[x]也必然不小于
k
k
k)。而且每层之间,存在
f
[
x
]
−
f
[
f
a
i
l
x
]
≤
1
f[x]-f[fail_x]\leq 1
f[x]−f[failx]≤1。只要
x
x
x的祖先中存在任何一个
f
[
f
a
i
l
x
]
=
k
f[fail_x]=k
f[failx]=k的节点中的子串,在
x
x
x节点的子串集合中出现过至少两次,就存在
f
[
x
]
=
k
+
1
f[x]=k+1
f[x]=k+1。考虑到节点子串之间的真包含关系,它们的
r
i
g
h
t
right
right集合显然是越大越好,这样更可能出现两次。所以这里可以贪心记录
x
x
x的祖先中深度最浅(也即子串最长长度最小)的满足
f
[
f
a
i
l
x
]
=
k
f[fail_x]=k
f[failx]=k节点
p
o
s
[
f
a
i
l
x
]
pos[fail_x]
pos[failx]来判断出现,如果这个子串集合都没能出现两次及以上,它的子节点自然也不能,那么
f
[
x
]
=
k
f[x]=k
f[x]=k,反之如果出现了两次及以上,
f
[
x
]
=
k
+
1
f[x]=k+1
f[x]=k+1。
考虑这个过程中需要用到每个节点的出现集合(右端点)。可以对每个节点建立线段树,再由叶子节点不断向上合并,建可持久化线段树。
这里建主席树看别人代码时发现一个很巧妙的优化,因为祖先必然在后缀中出现一次,我们 q u e r y query query寻找出现的时候只需要判断除开结束点以外在 [ m x [ p o s [ f a i l x ] ] + n u m [ x ] − m x [ x ] , n u m [ x ] − 1 ] [mx[pos[fail_x]]+num[x]-mx[x],num[x]-1] [mx[pos[failx]]+num[x]−mx[x],num[x]−1]这个区间是否出现即可。这样线段树上不需要记录任何信息,只需要判断动态加点线段树上这个节点是否存在即可,这样也很好合并线段树。
代码
#include<bits/stdc++.h>
#define mid (((l)+(r))>>1)
using namespace std;
const int N=4e5+100,M=1e7+100;
int n,f[N],mx[N],ch[N][26],c[N],sa[N];
int dp[N],pos[N],num[N];
int cnt=1,cur=1,p,q,ans=1;
char s[N];
int rt[N],ls[M],rs[M],tot;
inline void insert(int alp,int id)
{
p=cur;cur=++cnt;mx[cur]=id;num[cur]=id;
for(;!ch[p][alp] && p;p=f[p]) ch[p][alp]=cur;
if(!p) f[cur]=1;else{
q=ch[p][alp];
if(mx[q]==mx[p]+1) f[cur]=q;else{
mx[++cnt]=mx[p]+1;num[cnt]=id;
f[cnt]=f[q];f[q]=f[cur]=cnt;
memcpy(ch[cnt],ch[q],sizeof(ch[q]));
for(;ch[p][alp]==q;p=f[p]) ch[p][alp]=cnt;
}
}
}
inline void ad(int &k,int l,int r,int tag)
{
if(!k) k=++tot;
if(l==r) return;
if(tag<=mid) ad(ls[k],l,mid,tag);
else ad(rs[k],mid+1,r,tag);
}
inline int merge(int x,int y)
{
if(!x || !y) return x+y;
int d=++tot;
ls[d]=merge(ls[x],ls[y]);
rs[d]=merge(rs[x],rs[y]);
return d;
}
inline int query(int k,int l,int r,int L,int R)
{
if(!k) return 0;
if(l==r) return 1;
if(L<=mid) if(query(ls[k],l,mid,L,R)) return 1;
if(R>mid) if(query(rs[k],mid+1,r,L,R)) return 1;
return 0;
}
int main(){
int i,j,x;
scanf("%d%s",&n,s+1);
for(i=1;i<=n;++i) insert(s[i]-'a',i);
for(i=1;i<=cnt;++i) c[mx[i]]++;
for(i=1;i<=n;++i) c[i]+=c[i-1];
for(i=cnt;i>1;--i) sa[c[mx[i]]--]=i;
for(i=cnt;i>1;--i){
x=sa[i];
ad(rt[x],1,n,num[x]);
rt[f[x]]=merge(rt[f[x]],rt[x]);
}
for(i=2;i<=cnt;++i){
x=sa[i];
if(f[x]==1){dp[x]=1;pos[x]=x;continue;}
if(query(rt[pos[f[x]]],1,n,mx[pos[f[x]]]+num[x]-mx[x],num[x]-1))
dp[x]=dp[f[x]]+1,pos[x]=x;
else dp[x]=dp[f[x]],pos[x]=pos[f[x]];
ans=max(ans,dp[x]);
}
printf("%d\n",ans);
}