【杭电】“钉耙编程”(7)E-Subsequence Not Substring 题解

传送门:E-Subsequence Not Substring
标签:数据结构

题目大意

给定一个只包含小写英文字母的字符串S。求字典序最小的字符串T,满足T是S的子序列,但T不是S的子串,或者确定这样的T不存在。
输入:第一行输入一个正整数T,代表测试组数。随后T行每行输入一个字符串,其长度n满足:(1<=n<=1e5)。
输出:满足条件的字符串T,若其不存在,则输出-1。

算法分析

  • 先考虑最简单的结论。假设在字符串S中最小的字母是a,那么假设有两段不连续的只由a组成的子段(如abaa),那么答案必然是这两段中最长的那段加上一个a(如aaa)。推广可得,如果S中含有多段最小的字母,那么答案就是最长的那段加上一个最小的字母。假如S是由一段或两段不同的连续字母组成(如aa或aabb),那么必定无解,直接输出-1。
  • 很显然,在随机生成的数据中,90%都满足上面两个情况之一,可以直接特判。那么如果遇到由多段不同的连续子串组成的S,就得考虑其它方法了。要判断一个字符串是否为另一个字符串的子串,我们可以采用kmp、ac自动机、后缀自动机等数据结构。而要判断一个字符串是否为另一个字符串的子序列,可以用双指针线性解决。考虑到这题大概率要用dfs,我们只能选择后缀自动机sam。
  • O(n)建立出sam后,我们得到一个存储了S所有子串的字典树和一个parent树。如果是算子串贡献或统计某长度出现次数,我们会在parent树上跑dfs,但这题只要字典树就够了。现在我们有一个朴素思路:dfs传递下标,每层从小到大遍历26个字母,若字典树中无法转移但该下标后面存在至少一个此字母,那么当前串就是满足最小字典序的答案T。判断某位置后面的字母数量我们采用前缀和,考虑到sam中dfn最多为2n,那么dfs的复杂度也是线性的,太对了!
  • 然而并非如此。dfn为2n只能说明字典树中有最多2n个节点,并不能说明S只有2n种子串(因为具有相同后缀的子串共用一个节点),我们搜索的依据是子串,朴素做法最坏情况其实是n方,TLE在所难免。这时我们采用玄学结论来剪枝:开一个2n的数组,初始化为无穷大,用于记录每个节点目前的最小长度。当dfs跑到某个节点时,若之前已经以更小的长度经过,则直接回溯,否则将这个节点的最小长度更新为当前值。因为如果一个字符串的后缀无法在接下来的dfs中找到答案,那么这个字符串本身也就没有继续搜索的必要了。很遗憾,剪枝后的dfs不稳定,最优情况下复杂度为线性(跑到每个节点时都得到其理论最小值),最坏情况下为n方(跑到每个节点时都取到其目前最大长度)。
  • 最后我们只能往dp的方向思考,开一个一维的长度为2n的dp数组,记录sam每个节点可得到答案的最大下标,再在建立自动机的过程中存储每个节点的最小下标。这样一来,我们在跑答案的时候,如果当前字母转移后的新节点最小下标小于其dp值,则可继续转移,复杂度稳定在O(n)。那么还剩最后一个问题:dp如何初始化和转移。显然dp值是从子节点往父节点转移的,假设当前节点在结尾加上一个字母a后得到的子节点的dp值为x,那么说明跑到子节点时下标小于等于x就有解(注意以a结尾的子串dp值为x不代表S[x]的字母就是a),我们就要保证当前节点能在x内转移到子节点且dp值尽可能大,也就是x前最后一个a的前一个位置。这个值可能会比当前节点的下标还小,但是没关系,因为dfs时一个节点会对26个字母的转移值取最大,不合法的情况会被合法情况覆盖。再考虑另一种情况:假设当前节点在字典树上不能通过字母a转移,那么a对于当前节点的dp值就不做贡献吗?当然不是,如果此串加a不是S的子串,我们为了尽可能使其成为子序列,就要取S中最后一个a的下标的前一位。这样一来,所有节点的dp值都有转移的途径,也就不用担心初始化的问题了。最后通过记忆化保证每个节点只被遍历一次,dfs的时间复杂度就是O(n)了。

代码实现

#include <iostream>
using namespace std;
#include <cmath>
#include <algorithm>
#include <unordered_map>
#define lowbit(x) x&-x
#include <cstring>
#include <assert.h>
#include <queue>
int cnt[100005][26];
char ans[100005];
int n,np=1,dfn=1,dp[200005];
int fa[200001],len[200001],trie[200001][26],last[100005][26],fr[100005][26],val[200005],pos[200005];
int mi[26];
char str[100005];
int flag;

void sam(int x,int v){
    int p=np;
    np=++dfn;
    len[np]=len[p]+1;
    val[np]=x;
    pos[np]=v;
    for(;p&&(!trie[p][x]);p=fa[p])trie[p][x]=np;
    if(!p){fa[np]=1;return ;}
    int q=trie[p][x];
    if(len[q]==len[p]+1){fa[np]=q;return ;}
    int nq=++dfn;
    len[nq]=len[p]+1;
    val[nq]=val[q];
    pos[nq]=pos[q];
    fa[nq]=fa[q];
    fa[np]=fa[q]=nq;
    for(;p&&trie[p][x]==q;p=fa[p])trie[p][x]=nq;
    memcpy(trie[nq],trie[q],sizeof(trie[q]));
}

void dfs(int p){
    for(int i=0;i<26;i++)
        if(trie[p][i]){
            if(dp[trie[p][i]]==-1)dfs(trie[p][i]);
            dp[p]=max(dp[p],last[dp[trie[p][i]]][i]-1);
        }
        else dp[p]=max(dp[p],last[n-1][i]-1);
}

int main(){
    int x,mx;
    long long i,j,a,b,z,y,mmi,k,m,T,p,now;
    ios::sync_with_stdio(false);
    cin.tie(0);cout.tie(0);
    cin>>T;
    while(T--){
        flag=0;
        cin>>str;
        n=strlen(str);
        for(i=0;i<n;i++){
            for(j=0;j<26;j++)
                if(!i)cnt[i][j]=0,last[i][j]=-1;
                else{
                    cnt[i][j]=cnt[i-1][j];
                    last[i][j]=last[i-1][j];
                }
            cnt[i][str[i]-'a']++;
            last[i][str[i]-'a']=i;
        }
        for(i=n-1;i>=0;i--){
            for(j=0;j<26;j++)
                if(i==n-1)fr[i][j]=n;
                else fr[i][j]=fr[i+1][j];
            fr[i][str[i]-'a']=i;
        }
        np=1,dfn=1;
        for(i=0;i<n;i++)sam(str[i]-'a',i);
        for(i=0;i<=dfn;i++)dp[i]=-1;
        dfs(1);
        now=-1;
        p=1;
        for(i=0;i<n;i++)
            for(j=0;j<26;j++)
                if((!trie[p][j])&&fr[now+1][j]<n){
                    ans[i]='a'+j;
                    flag=1;
                    goto abc;
                }
                else if(fr[now+1][j]<=dp[trie[p][j]]){
                    ans[i]='a'+j;
                    p=trie[p][j];
                    now=fr[now+1][j];
                    break;
                }
        abc:;
        if(!flag)cout<<-1<<'\n';
        else{
            for(j=0;j<=i;j++)
                cout<<ans[j];
            cout<<'\n';
        }
        for(i=0;i<=dfn;i++){
            for(j=0;j<26;j++)
                trie[i][j]=0;
            fa[i]=len[i]=dp[i]=0;
        }
    }
    return 0;
}
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值