后缀数组模板题
参考论文
先穷举长度 L,然后求长度为 L 的子串最多能连续出现几次。首先连续出现 1 次是肯定可以的,所以这里只考虑至少 2 次的情况。假设在原字符串中连续出 现 2 次,记这个子字符串为 S,那么 S 肯定包括了字符
r
[
0
]
,
r
[
L
]
,
r
[
L
∗
2
]
,
r
[
L
∗
3
]
,
…
…
r[0], r[L], r[L*2], r[L*3], ……
r[0],r[L],r[L∗2],r[L∗3],……中的某相邻的两个。所以只须看字符
r
[
L
∗
i
]
和
r
[
L
∗
(
i
+
1
)
]
r[L*i]和 r[L*(i+1)]
r[L∗i]和r[L∗(i+1)]往前和
往后各能匹配到多远,记这个总长度为
K
K
K,那么这里连续出现了
K
/
L
+
1
K/L+1
K/L+1 次。最后
看最大值是多少。
详情见于代码注释
#include <iostream>
#include <cstring>
#include <algorithm>
#include <cstdio>
using namespace std;
#define ll long long
const int N = 1000010;
int n, m;
char s[N], a[N];
int sa[N], x[N], y[N], c[N], rk[N], height[N], base[N], f[N][30];
void get_sa()
{
for (int i = 1; i <= n; i ++ ) c[x[i] = s[i]] ++ ;
for (int i = 2; i <= m; i ++ ) c[i] += c[i - 1];
for (int i = n; i; i -- ) sa[c[x[i]] -- ] = i;
for (int k = 1; k <= n; k <<= 1)
{
int num = 0;
for (int i = n - k + 1; i <= n; i ++ ) y[ ++ num] = i;
for (int i = 1; i <= n; i ++ )
if (sa[i] > k)
y[ ++ num] = sa[i] - k;
for (int i = 1; i <= m; i ++ ) c[i] = 0;
for (int i = 1; i <= n; i ++ ) c[x[i]] ++ ;
for (int i = 2; i <= m; i ++ ) c[i] += c[i - 1];
for (int i = n; i; i -- ) sa[c[x[y[i]]] -- ] = y[i], y[i] = 0;
swap(x, y);
x[sa[1]] = 1, num = 1;
for (int i = 2; i <= n; i ++ )
x[sa[i]] = (y[sa[i]] == y[sa[i - 1]] && y[sa[i] + k] == y[sa[i - 1] + k]) ? num : ++ num;
if (num == n) break;
m = num;
}
}
void get_height()
{
for (int i = 1; i <= n; i ++ ) rk[sa[i]] = i;
for (int i = 1, k = 0; i <= n; i ++ )
{
if (rk[i] == 1) continue;
if (k) k -- ;
int j = sa[rk[i] - 1];
while (i + k <= n && j + k <= n && s[i + k] == s[j + k]) k ++ ;
height[rk[i]] = k;
}
}
void init_rmq()
{
base[0] = -1;
for(int i = 1; i <= n; i ++)
{
f[i][0] = height[i];
base[i] = base[i>>1] + 1;
}
for(int j = 1; j <= 18; j ++)
{
for(int i = 1; i + (1 << (j - 1)) <= n; i++)
{
f[i][j] = min(f[i][j - 1], f[i + (1 << (j - 1))][j - 1]);
}
}
}
int lcp(int x, int y) //第x和第y个后缀(不是排名)的最长公共前缀
{
if(x == y) return n - x + 1;
x = rk[x], y = rk[y];
if(x > y) swap(x, y);
x ++;
int t = base[y - x + 1];
return min(f[x][t], f[y - (1 << t) + 1][t]);
}
void init()
{
memset(c, 0, sizeof c);
memset(x, 0, sizeof x);
}
int ans[N];
int main()
{
int Case = 1;
while(~scanf("%s", s + 1), s[1] != '#') //从一开始
{
n = strlen(s + 1);
for(int i = 1; i <= n; i++) a[i] = s[i];
m = 333;
get_sa();
get_height();
init_rmq(); // 后缀数组基本操作
int Max = -1;
int res = 0;
for(int l = 1; l < n; l ++)//枚举最小循环节的长度
{
for(int i = 1; i + l <= n; i += l)//如果最小循环节大于2必然包含i ~ i + l, i + l ~ i + 2 * l必然存在相同
{
int k = lcp(i, i + l);
int cnt = k / l + 1, t = l - k % l;//cnt为不考虑i前面的循环节个数, t为向前延申的距离(使其还可能增加一个循环节)
t = i - t;
if(t >= 1 && k % l) // 如果有可能增加
{
if(lcp(t, t + l) >= k) cnt ++;//在次求lcp判断
}
if(cnt > Max)//记录答案
{
Max = cnt;
res = 0;
ans[res ++] = l;
}
else if(cnt == Max) ans[res ++] = l;
}
}
int pos, len, flag = 0;
for(int i = 1; i <= n; i++)//利用sa数组实现字典序
{
if(flag) break;
for(int j = 0; j < res; j ++)
{
int temp = ans[j];
if(lcp(sa[i], sa[i] + temp) >= (Max - 1) * temp)// 判断是否有Max个循环节
{
pos = sa[i];
len = Max * temp;
flag = 1;
break;//找到最小序 及时退出
}
}
}
printf("Case %d: ", Case ++ );
for(int i = 0; i < len; i ++) printf("%c", a[i + pos]);
puts("");
}
return 0;
}