更新易错点:
cmp 忘记代数组y参数
忘记清空num
退出条件 m >= n
更新模板:
int xx[maxn], yy[maxn];
int z[maxn], num[maxn];
int sa[maxn], rank[maxn];
bool cmp(int *a, int i, int j, int k) {return a[i] == a[j] && a[i+k] == a[j+k];}
void build()
{
int i, k, l, *x = xx, *y = yy;
FOR(i, 1, n) ++num[x[i] = a[i]];
FOR(i, 2, m) num[i] += num[i-1];
ROF(i, n, 1) sa[num[x[i]]--] = i;
for (k = 0, l = 1; m < n; l <<=1, m = k, k = 0) {
FOR(i, n-l+1, n) y[++k] = i;
FOR(i, 1, n) if (sa[i] > l) y[++k] = sa[i]-l;
FOR(i, 1, n) z[i] = x[y[i]];
memset(num, 0, (m+1)<<2);
FOR(i, 1, n) ++num[z[i]];
FOR(i, 2, m) num[i] += num[i-1];
ROF(i, n, 1) sa[num[z[i]]--] = y[i];
swap(x, y), x[sa[1]] = k = 1;
FOR(i, 2, n) x[sa[i]] = cmp(y, sa[i-1], sa[i], l) ? k : ++k;
}
memcpy(rank, x, (n+1)<<2);
}
终于有一份自己的后缀数组模板了。。。一直看论文看不懂,自己 yy 了很久终于出了可用的模板。
先说说如何求出后缀数组。我只会倍增算法,时间复杂度为 O(nlgn) 。
倍增算法其实很水:一个长度为 2 ^ k 的串的大小可以通过其前半部分和后半部分的大小 O(1) 得到。然后基数排序是 O(n) 的。所以只剩下实现问题了。
首先对于单个字符的基数排序不用说了。主要是如何双关键字基数排序。
构造一个新的数组 z, z[i] 表示第二关键字为 i 的后缀的第一关键字。把 z 基数排序,发现可以得到一个值为第二关键字的后缀数组。因为第一关键字已经有序,所以这就是所要求的后缀数组。
然后交换指针之类的倍增。。。不用说了。。。
在就是后缀数组的应用之类。其实我觉得后缀数组看起来没有什么用,但是有一种可以通过后缀数组 O(n) 构造的东西非常有用:height 数组。
它是什么呢?height[i] 表示:第 i 大的后缀与第 i - 1 大的后缀的最长公共前缀。很显然,串的子串就是串的后缀的公共前缀,所以它有各种用途。
怎么迅速得出它呢?另记 h[i] 表示:后缀 i 与排名在后缀 i 前 1 名的后缀的公共前缀,有 h[i] >= h[i - 1] - 1 。原理很简单,手模一下就可以发现了。
然后。。。就 O(n) 的模拟求出就可以了。。。
Code :
int h[maxn], num[maxn], xx[maxn], yy[maxn], z[maxn], * x, * y;
int ss[20] = {0, 1, 1, 2, 1, 1, 1, 1, 2}, sa[20] = {0}, ra[20] = {0};
bool cmp(int ss[], const int & i, const int & j, const int & l)
{
return ss[i] == ss[j] && ss[i + l] == ss[j + l];
}
void getit(int ss[], int sa[], int ra[], int n, int m)
{
memset(num, 0, (m + 1) << 2), x = xx, y = yy;
for (int i = 1; i <= n; ++ i) ++ num[x[i] = ss[i]];
for (int i = 2; i <= m; ++ i) num[i] += num[i - 1];
for (int i = n; i >= 1; -- i) sa[num[x[i]] --] = i;
for (int l = 1, p = 0; m < n; l <<= 1, m = p, p = 0)
{
for (int i = n - l + 1; i <= n; ++ i) y[++ p] = i;
for (int i = 1; i <= n; ++ i) if (sa[i] > l) y[++ p] = sa[i] - l;
for (int i = 1; i <= n; ++ i) z[i] = x[y[i]];
memset(num, 0, (m + 1) << 2);
for (int i = 1; i <= n; ++ i) ++ num[z[i]];
for (int i = 2; i <= m; ++ i) num[i] += num[i - 1];
for (int i = n; i >= 1; -- i) sa[num[z[i]] --] = y[i];
swap(x, y), p = x[sa[1]] = 1;
for (int i = 2; i <= n; ++ i) x[sa[i]] = cmp(y, sa[i - 1], sa[i], l) ? p : ++ p;
}
memcpy(ra, x, (n + 1) << 2);
}
void gethe(int ss[], int sa[], int ra[], int he[], int n)
{
for (int i = 1, j; i <= n; ++ i, he[ra[i]] = h[i])
{
j = sa[ra[i] - 1], h[i] = h[i - 1] ? h[i - 1] - 1 : 0;
while (ss[j + h[i]] == ss[i + h[i]]) ++ h[i];
}
}
另外,有一个串中很重要的概念:子串就是后缀的前缀。而且不难证得,两串的最长公共前缀为其 rank 序列中那一段上的最小值(自己 yy,绝对可以出)。
于是求什么重复子串之类有限制的,便不在话下了。
比如说:无重叠最长重复子串(二分 + height 数组分段统计,O(nlgn)),最长公共子串(合串后缀数组,O(nlgn))等等还有各种神奇的题目,好像都可以做出来了。
下面上无重叠最长重复子串的代码:
#include <cstdio>
#include <cstdlib>
#include <cstring>
#include <algorithm>
using namespace std;
#define maxn 20005
int n, m, k, tt, * x, * y, l, r, mid;
int a[maxn], dd[500], * d = dd + 250, cc[500], * c = cc + 250,
h[maxn], he[maxn], ra[maxn], sa[maxn],
num[maxn], xx[maxn], yy[maxn], z[maxn];
void getint(int & a)
{
char c = getchar();
while ('0' > c || c > '9') c = getchar();
a = c - '0', c = getchar();
while ('0' <= c && c <= '9') a = a * 10 + c - '0', c = getchar();
}
bool sacmp(int a[], const int & i, const int & j, const int & k)
{
return a[i] == a[j] && a[i + k] == a[j + k];
}
void getsa(int a[], int sa[], int ra[], int n, int m)
{
memset(num, 0, (m + 1) << 2), x = xx, y = yy;
for (int i = 1; i <= n; ++ i) ++ num[x[i] = a[i]];
for (int i = 2; i <= m; ++ i) num[i] += num[i - 1];
for (int i = n; i >= 1; -- i) sa[num[a[i]] --] = i;
for (int j = 1, p = 0; m < n; j <<= 1, m = p, p = 0)
{
for (int i = n - j + 1; i <= n; ++ i) y[++ p] = i;
for (int i = 1; i <= n; ++ i) if (sa[i] > j) y[++ p] = sa[i] - j;
memset(num, 0, (m + 1) << 2);
for (int i = 1; i <= n; ++ i) ++ num[z[i] = x[y[i]]];
for (int i = 2; i <= m; ++ i) num[i] += num[i - 1];
for (int i = n; i >= 1; -- i) sa[num[z[i]] --] = y[i];
swap(x, y), p = x[sa[1]] = 1;
for (int i = 2; i <= n; ++ i) x[sa[i]] = sacmp(y, sa[i], sa[i - 1], j) ? p : ++ p;
}
memcpy(ra, x, (n + 1) << 2);
}
void gethe(int a[], int sa[], int ra[], int he[], int n)
{
for (int i = 1; i <= n; ++ i)
{
k = sa[ra[i] - 1], h[i] = h[i - 1] ? h[i - 1] - 1 : 0;
while (a[i + h[i]] == a[k + h[i]]) ++ h[i];
he[ra[i]] = h[i];
}
}
bool okay(int k)
{
for (int i = 1; i <= n; ++ i)
{
int j = i, mini = sa[i], maxi = sa[i];
while (j + 1 <= n && he[j + 1] >= k)
++ j, mini = min(mini, sa[j]), maxi = max(maxi, sa[j]);
if (mini + k <= maxi) return 1; else i = j;
}
return 0;
}
int main()
{
freopen("a.in", "r", stdin);
freopen("a.out", "w", stdout);
while (scanf("%d", & n), n --)
{
++ tt, m = 0, k = maxn, getint(a[1]);
for (int i = 1; i <= n; ++ i) getint(a[i + 1]), k = min(k, a[i] = a[i + 1] - a[i]);
for (int i = 1; i <= n; ++ i) d[a[i] -= k - 1] = tt; a[n + 1] = 0;
for (int i = - 200; i <= 200; ++ i) if (d[i] == tt) c[i] = ++ m;
for (int i = 1; i <= n; ++ i) a[i] = c[a[i]];
getsa(a, sa, ra, n, m);
gethe(a, sa, ra, he, n);
if (okay(n)) printf("%d\n", n);
else
{
l = 4, r = n;
while (l < r) if (okay(mid = (l + r) >> 1)) l = mid + 1; else r = mid;
if (l < 5) puts("0"); else printf("%d\n", l);
}
}
return 0;
}