Maximum repetition substring(重复次数最多的连续重复子串)

该博客探讨了如何使用后缀数组寻找字符串中的最长循环节。通过穷举子串长度,计算连续出现次数,并利用后缀数组的性质进行高效求解。文章详细介绍了算法流程,包括获取后缀数组、计算最长公共前缀、初始化RMQ(区间最值查询)等步骤,最终实现了找出字符串中具有最大循环次数的子串。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

后缀数组模板题
参考论文
先穷举长度 L,然后求长度为 L 的子串最多能连续出现几次。首先连续出现 1 次是肯定可以的,所以这里只考虑至少 2 次的情况。假设在原字符串中连续出 现 2 次,记这个子字符串为 S,那么 S 肯定包括了字符 r [ 0 ] , r [ L ] , r [ L ∗ 2 ] , r [ L ∗ 3 ] , … … r[0], r[L], r[L*2], r[L*3], …… r[0],r[L],r[L2],r[L3],中的某相邻的两个。所以只须看字符 r [ L ∗ i ] 和 r [ L ∗ ( i + 1 ) ] r[L*i]和 r[L*(i+1)] r[Li]r[L(i+1)]往前和
往后各能匹配到多远,记这个总长度为 K K K,那么这里连续出现了 K / L + 1 K/L+1 K/L+1 次。最后
看最大值是多少。
详情见于代码注释

#include <iostream>
#include <cstring>
#include <algorithm>
#include <cstdio>
using namespace std;
#define ll long long
const int N = 1000010;



int n, m;
char s[N], a[N];
int sa[N], x[N], y[N], c[N], rk[N], height[N], base[N], f[N][30];
void get_sa()
{
    for (int i = 1; i <= n; i ++ ) c[x[i] = s[i]] ++ ;
    for (int i = 2; i <= m; i ++ ) c[i] += c[i - 1];
    for (int i = n; i; i -- ) sa[c[x[i]] -- ] = i;
    for (int k = 1; k <= n; k <<= 1)
    {
        int num = 0;
        for (int i = n - k + 1; i <= n; i ++ ) y[ ++ num] = i;
        for (int i = 1; i <= n; i ++ )
            if (sa[i] > k)
                y[ ++ num] = sa[i] - k;
        for (int i = 1; i <= m; i ++ ) c[i] = 0;
        for (int i = 1; i <= n; i ++ ) c[x[i]] ++ ;
        for (int i = 2; i <= m; i ++ ) c[i] += c[i - 1];
        for (int i = n; i; i -- ) sa[c[x[y[i]]] -- ] = y[i], y[i] = 0;
        swap(x, y);
        x[sa[1]] = 1, num = 1;
        for (int i = 2; i <= n; i ++ )
            x[sa[i]] = (y[sa[i]] == y[sa[i - 1]] && y[sa[i] + k] == y[sa[i - 1] + k]) ? num : ++ num;
        if (num == n) break;
        m = num;
    }
}

void get_height()
{
    for (int i = 1; i <= n; i ++ ) rk[sa[i]] = i;
    for (int i = 1, k = 0; i <= n; i ++ )
    {
        if (rk[i] == 1) continue;
        if (k) k -- ;
        int j = sa[rk[i] - 1];
        while (i + k <= n && j + k <= n && s[i + k] == s[j + k]) k ++ ;
        height[rk[i]] = k;
    }
}

void init_rmq()
{
	base[0] = -1;
	for(int i = 1; i <= n; i ++)
	{
		f[i][0] = height[i];
		base[i] = base[i>>1] + 1;
	}
	for(int j = 1; j <= 18; j ++)
	{
		for(int i = 1; i + (1 << (j - 1)) <= n; i++)
		{
			f[i][j] = min(f[i][j - 1], f[i + (1 << (j - 1))][j - 1]);
		}
	}
}
int lcp(int x, int y) //第x和第y个后缀(不是排名)的最长公共前缀
{
	if(x == y) return n - x + 1;
	x = rk[x], y = rk[y];
	if(x > y) swap(x, y);
	x ++;
	int t = base[y - x + 1];
	return min(f[x][t], f[y - (1 << t) + 1][t]);
}
void init()
{
	memset(c, 0, sizeof c);
	memset(x, 0, sizeof x);
}
int ans[N];
int main()
{
	int Case = 1;
	while(~scanf("%s", s + 1), s[1] != '#') //从一开始
	{
		n = strlen(s + 1);
		for(int i = 1; i <= n; i++) a[i] = s[i];
		m = 333;
		get_sa();
		get_height();
		init_rmq(); // 后缀数组基本操作
		int Max = -1;
		int res = 0;
		for(int l = 1; l < n; l ++)//枚举最小循环节的长度
		{
			for(int i = 1; i + l <= n; i += l)//如果最小循环节大于2必然包含i ~ i + l, i + l ~ i + 2 * l必然存在相同
			{
				int k = lcp(i, i + l);
				int cnt = k / l + 1, t = l - k % l;//cnt为不考虑i前面的循环节个数, t为向前延申的距离(使其还可能增加一个循环节)
				t = i - t;
				if(t >= 1 && k % l) // 如果有可能增加
				{
					if(lcp(t, t + l) >= k) cnt ++;//在次求lcp判断
				}
				if(cnt >  Max)//记录答案
				{
					Max = cnt;
					res = 0;
					ans[res ++] = l;
				}
				else if(cnt == Max) ans[res ++] = l;

			}
		}
		int pos, len, flag = 0;
		for(int i = 1; i <= n; i++)//利用sa数组实现字典序
		{
			if(flag) break;
			for(int j = 0; j < res; j ++)
			{
				int temp = ans[j];
				if(lcp(sa[i], sa[i] + temp) >= (Max - 1) * temp)// 判断是否有Max个循环节
				{
					pos = sa[i];
					len = Max * temp;
					flag = 1;
					break;//找到最小序 及时退出
				}
			}
		}
		printf("Case %d: ", Case ++ );
		for(int i = 0; i < len; i ++) printf("%c", a[i + pos]);
		puts("");
	}
    return 0;
}



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值