后缀树应用之寻找重复出现过的最长子串

本文介绍了一种利用后缀数组查找字符串中最长重复子串的方法。通过构建后缀数组并对数组进行排序,进而找到相邻元素间的最长公共前缀,以此确定最长重复子串。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

给定一个字符串s,假设该字符串内只包含数字和字母,试找出其重复出现的最长子串。

Sample Input: 
strstr 
thisisastringwhichisisis

Sample Output: 
str 

isis

《编程珠玑》最后一章有提到这个例子,书中使用了后缀数组这一技巧。后缀数组其实可以看作一个由字符串s倒数i个字符组成的子串的集合,其中0<i<s.length(),例如 字符串strstr的后缀数组为: 
{r,tr,str,rstr,trstr,strstr} 
得到这个集合之后,我们可以发现,最长重复子串其实变成了求该集合中任意两个元素的最长公共前缀的问题。因为在这个集合中,原字符串中的每个字符都会出现在集合中元素的首位,而如果有子串重复出现,那么该子串肯定会出现在某两个或者多个元素的公共前缀上。 
接下来问题就变成了如何去寻找最长公共前缀,除了暴力搜素之外,我们可以考虑先对该集合中的元素按照字典序进行排序,然后依次比较相邻的元素,找出其中的最长公共前缀即可。

代码如下: 
首先构造一个后缀数组:

vector<string> suffixtree(string s){
    vector<string> vs(s.length());//用vs来保存这些元素
    for(int i = 0;i<s.length();i++){
        //依次将后i个元素放入vs中
        vs[i] = s.substr(s.length()-i-1,i+1);
    }
    //排序并返回
    sort(vs.begin(),vs.end());
    return vs;
}

得到这个后缀数组之后,我们需要寻找其最长公共前缀,代码如下:

string longcom(vector<string> vs){
    int maxLen = 0;
    string ret;
    for(int i = 0;i<vs.size()-1;i++){
        string cur = vs[i];
        string suf = vs[i+1];

        int tlen = 0;
        //循环条件是尚未到达任意一个的末尾
        for(int j = 0;j<min(cur.length(),suf.length());j++){
            //如果发现有不匹配,立刻退出循环,
            //如果是第一个元素就不匹配,那么没有必要匹配下去
            //如果是后面的元素不匹配,那么在上一次循环中已经设置了maxLen
            if(cur[j]!=suf[j]){
                tlen = 0;
                break;
            }
            else if(cur[j]==suf[j]){
                tlen++;
            }
            //更新maxLen
            if(maxLen<tlen){
                maxLen =tlen;
                ret = suf.substr(0,maxLen);
                //cout<<ret<<endl;
            }
        }
    }
    return ret;
}
转载:https://blog.youkuaiyun.com/kid1ing/article/details/71425122
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值