【杭电】“钉耙编程”(7)E-Subsequence Not Substring 题解

最小字典序子序列问题的高效算法

传送门:E-Subsequence Not Substring
标签:数据结构

题目大意

给定一个只包含小写英文字母的字符串S。求字典序最小的字符串T,满足T是S的子序列,但T不是S的子串,或者确定这样的T不存在。
输入:第一行输入一个正整数T,代表测试组数。随后T行每行输入一个字符串,其长度n满足:(1<=n<=1e5)。
输出:满足条件的字符串T,若其不存在,则输出-1。

算法分析

  • 先考虑最简单的结论。假设在字符串S中最小的字母是a,那么假设有两段不连续的只由a组成的子段(如abaa),那么答案必然是这两段中最长的那段加上一个a(如aaa)。推广可得,如果S中含有多段最小的字母,那么答案就是最长的那段加上一个最小的字母。假如S是由一段或两段不同的连续字母组成(如aa或aabb),那么必定无解,直接输出-1。
  • 很显然,在随机生成的数据中,90%都满足上面两个情况之一,可以直接特判。那么如果遇到由多段不同的连续子串组成的S,就得考虑其它方法了。要判断一个字符串是否为另一个字符串的子串,我们可以采用kmp、ac自动机、后缀自动机等数据结构。而要判断一个字符串是否为另一个字符串的子序列,可以用双指针线性解决。考虑到这题大概率要用dfs,我们只能选择后缀自动机sam。
  • O(n)建立出sam后,我们得到一个存储了S所有子串的字典树和一个parent树。如果是算子串贡献或统计某长度出现次数,我们会在parent树上跑dfs,但这题只要字典树就够了。现在我们有一个朴素思路:dfs传递下标,每层从小到大遍历26个字母,若字典树中无法转移但该下标后面存在至少一个此字母,那么当前串就是满足最小字典序的答案T。判断某位置后面的字母数量我们采用前缀和,考虑到sam中dfn最多为2n,那么dfs的复杂度也是线性的,太对了!
  • 然而并非如此。dfn为2n只能说明字典树中有最多2n个节
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值