题意
给一个长度为n的字符串,要求将其分成不超过m个连续部分,使得分割后所有子串中字典序最大的子串字典序尽量小。
n<=100000
分析
一开始没想到原来字符串也可以二分答案。。。
那么我们就先二分答案是第几小的子串,求第k大子串可以用sa来搞。
因为我们用的是后缀数组,所以考虑从后往前贪心。
若当前后缀p的字典序小于第k大的串,就直接跳过,否则就求它们的lcp。
若lcp=0则表示该子串必然不是答案,否则我们就看看之前是否在[p+1,p+lcp]中的一个的前面设置断点,若没有,则在p+1的前面设置断点。
最后看断点数量是否大于m即可。
代码
#include<iostream>
#include<cstdio>
#include<cstdlib>
#include<cstring>
#include<algorithm>
#include<cmath>
using namespace std;
typedef long long LL;
const int N=100005;
int n,m,s[N],b[N],c[N],d[N],rank[N*2],sa[N],height[N],rmq[N][20],bin[20],lg[N];
char str[N];
struct data{int l,r;};
void get_sa(int n,int m)
{
for (int i=1;i<=n;i++) b[s[i]]++;
for (int i=1;i<=m;i++) b[i]+=b[i-1];
for (int i=n;i>=1;i--) c[b[s[i]]--]=i;
int t=0,j=1;
for (int i=1;i<=n;i++)
{
if (s[c[i]]!=s[c[i-1]]) t++;
rank[c[i]]=t;
}
while (j<=n)
{
for (int i=1;i<=n;i++) b[i]=0;
for (int i=1;i<=n;i++) b[rank[i+j]]++;
for (int i=1;i<=n;i++) b[i]+=b[i-1];
for (int i=n;i>=1;i--) c[b[rank[i+j]]--]=i;
for (int i=1;i<=n;i++) b[i]=0;
for (int i=1;i<=n;i++) b[rank[i]]++;
for (int i=1;i<=n;i++) b[i]+=b[i-1];
for (int i=n;i>=1;i--) d[b[rank[c[i]]]--]=c[i];
t=0;
for(int i=1;i<=n;i++)
{
if (rank[d[i]]!=rank[d[i-1]]||rank[d[i]]==rank[d[i-1]]&&rank[d[i]+j]!=rank[d[i-1]+j]) t++;
c[d[i]]=t;
}
for (int i=1;i<=n;i++) rank[i]=c[i];
if (t==n) break;
j<<=1;
}
for (int i=1;i<=n;i++) sa[rank[i]]=i;
}
void get_height(int n)
{
int k=0;
for (int i=1;i<=n;i++)
{
if (k) k--;
int j=sa[rank[i]-1];
while (i+k<=n&&j+k<=n&&s[i+k]==s[j+k]) k++;
height[rank[i]]=k;
}
}
void get_rmq(int n)
{
for (int i=1;i<=n;i++) lg[i]=log(i)/log(2),rmq[i][0]=height[i];
bin[0]=1;
for (int i=1;i<=lg[n];i++) bin[i]=bin[i-1]*2;
for (int j=1;j<=lg[n];j++)
for (int i=1;i+bin[j]-1<=n;i++)
rmq[i][j]=min(rmq[i][j-1],rmq[i+bin[j-1]][j-1]);
}
int get_mn(int l,int r)
{
if (l==r) return n*2-l+1;
l=rank[l];r=rank[r];
if (l>r) swap(l,r);
l++;int w=lg[r-l+1];
return min(rmq[l][w],rmq[r-bin[w]+1][w]);
}
data kth(LL k)
{
for (int i=1;i<=n;i++)
if (k>n-sa[i]+1-height[i]) k-=n-sa[i]+1-height[i];
else return (data){sa[i],sa[i]+height[i]-1+k};
}
bool cmp(int l1,int r1,int l2,int r2)
{
int len1=r1-l1+1,len2=r2-l2+1,lcp=min(get_mn(l1,l2),min(len1,len2));
return lcp==len2&&len1>len2||lcp<len2&&lcp<len1&&s[l1+lcp]>s[l2+lcp];
}
bool check(LL mid)
{
data u=kth(mid);int l=u.l,r=u.r,tot=0,ls=n+1;
for (int i=n;i>=1;i--)
{
if (!cmp(i,n,l,r)) continue;
int lcp=min(r-l+1,get_mn(l,i));
if (!lcp) return 0;
if (ls>i+lcp) tot++,ls=i+1;
}
if (ls>1) tot++;
return tot<=m;
}
int main()
{
scanf("%d%s",&m,str+1);
n=strlen(str+1);
for (int i=1;i<=n;i++) s[i]=str[i]-'a'+1;
get_sa(n,30);get_height(n);get_rmq(n);
LL l=1,r=n-sa[1]+1;
for (int i=2;i<=n;i++) r+=n-sa[i]+1-height[i];
while (l<=r)
{
LL mid=(l+r)/2;
if (check(mid)) r=mid-1;
else l=mid+1;
}
data u=kth(r+1);
for (int i=u.l;i<=u.r;i++) putchar(str[i]);
return 0;
}