后缀数组模板

更新易错点:

cmp 忘记代数组y参数

忘记清空num

退出条件 m >= n

更新模板:

int xx[maxn], yy[maxn];
int z[maxn], num[maxn];
int sa[maxn], rank[maxn];

bool cmp(int *a, int i, int j, int k) {return a[i] == a[j] && a[i+k] == a[j+k];}

void build()
{
	int i, k, l, *x = xx, *y = yy;
	FOR(i, 1, n) ++num[x[i] = a[i]];
	FOR(i, 2, m) num[i] += num[i-1];
	ROF(i, n, 1) sa[num[x[i]]--] = i;
	for (k = 0, l = 1; m < n; l <<=1, m = k, k = 0) {
		FOR(i, n-l+1, n) y[++k] = i;
		FOR(i, 1, n) if (sa[i] > l) y[++k] = sa[i]-l;
		FOR(i, 1, n) z[i] = x[y[i]];
		memset(num, 0, (m+1)<<2);
		FOR(i, 1, n) ++num[z[i]];
		FOR(i, 2, m) num[i] += num[i-1];
		ROF(i, n, 1) sa[num[z[i]]--] = y[i];
		swap(x, y), x[sa[1]] = k = 1;
		FOR(i, 2, n) x[sa[i]] = cmp(y, sa[i-1], sa[i], l) ? k : ++k;
	}
	memcpy(rank, x, (n+1)<<2);
}

终于有一份自己的后缀数组模板了。。。一直看论文看不懂,自己 yy 了很久终于出了可用的模板。

先说说如何求出后缀数组。我只会倍增算法,时间复杂度为 O(nlgn) 。

倍增算法其实很水:一个长度为 2 ^ k 的串的大小可以通过其前半部分和后半部分的大小 O(1) 得到。然后基数排序是 O(n) 的。所以只剩下实现问题了。

首先对于单个字符的基数排序不用说了。主要是如何双关键字基数排序。

构造一个新的数组 z, z[i] 表示第二关键字为 i 的后缀的第一关键字。把 z 基数排序,发现可以得到一个值为第二关键字的后缀数组。因为第一关键字已经有序,所以这就是所要求的后缀数组。

然后交换指针之类的倍增。。。不用说了。。。

在就是后缀数组的应用之类。其实我觉得后缀数组看起来没有什么用,但是有一种可以通过后缀数组 O(n) 构造的东西非常有用:height 数组。

它是什么呢?height[i] 表示:第 i 大的后缀与第 i - 1 大的后缀的最长公共前缀。很显然,串的子串就是串的后缀的公共前缀,所以它有各种用途。

怎么迅速得出它呢?另记 h[i] 表示:后缀 i 与排名在后缀 i 前 1 名的后缀的公共前缀,有 h[i] >= h[i - 1] - 1 。原理很简单,手模一下就可以发现了。

然后。。。就 O(n) 的模拟求出就可以了。。。

Code :

int h[maxn], num[maxn], xx[maxn], yy[maxn], z[maxn], * x, * y;
int ss[20] = {0, 1, 1, 2, 1, 1, 1, 1, 2}, sa[20] = {0}, ra[20] = {0};

bool cmp(int ss[], const int & i, const int & j, const int & l)
{
  return ss[i] == ss[j] && ss[i + l] == ss[j + l];
}

void getit(int ss[], int sa[], int ra[], int n, int m)
{
  memset(num, 0, (m + 1) << 2), x = xx, y = yy;
  for (int i = 1; i <= n; ++ i) ++ num[x[i] = ss[i]];
  for (int i = 2; i <= m; ++ i) num[i] += num[i - 1];
  for (int i = n; i >= 1; -- i) sa[num[x[i]] --] = i;
  for (int l = 1, p = 0; m < n; l <<= 1, m = p, p = 0)
  {
    for (int i = n - l + 1; i <= n; ++ i) y[++ p] = i;
    for (int i = 1; i <= n; ++ i) if (sa[i] > l) y[++ p] = sa[i] - l;
    for (int i = 1; i <= n; ++ i) z[i] = x[y[i]];
    memset(num, 0, (m + 1) << 2);
    for (int i = 1; i <= n; ++ i) ++ num[z[i]];
    for (int i = 2; i <= m; ++ i) num[i] += num[i - 1];
    for (int i = n; i >= 1; -- i) sa[num[z[i]] --] = y[i];
    swap(x, y), p = x[sa[1]] = 1;
    for (int i = 2; i <= n; ++ i) x[sa[i]] = cmp(y, sa[i - 1], sa[i], l) ? p : ++ p;
  }
  memcpy(ra, x, (n + 1) << 2);
}

void gethe(int ss[], int sa[], int ra[], int he[], int n)
{
  for (int i = 1, j; i <= n; ++ i, he[ra[i]] = h[i])
  {
    j = sa[ra[i] - 1], h[i] = h[i - 1] ? h[i - 1] - 1 : 0;
    while (ss[j + h[i]] == ss[i + h[i]]) ++ h[i];
  }
}

另外,有一个串中很重要的概念:子串就是后缀的前缀。而且不难证得,两串的最长公共前缀为其 rank 序列中那一段上的最小值(自己 yy,绝对可以出)。

于是求什么重复子串之类有限制的,便不在话下了。

比如说:无重叠最长重复子串(二分 + height 数组分段统计,O(nlgn)),最长公共子串(合串后缀数组,O(nlgn))等等还有各种神奇的题目,好像都可以做出来了。

下面上无重叠最长重复子串的代码:

#include <cstdio>
#include <cstdlib>
#include <cstring>
#include <algorithm>
using namespace std;
#define maxn 20005

int n, m, k, tt, * x, * y, l, r, mid;
int a[maxn], dd[500], * d = dd + 250, cc[500], * c = cc + 250,
   h[maxn], he[maxn], ra[maxn], sa[maxn], 
   num[maxn], xx[maxn], yy[maxn], z[maxn];

void getint(int & a)
{
   char c = getchar();
   while ('0' > c || c > '9') c = getchar();
   a = c - '0', c = getchar();
   while ('0' <= c && c <= '9') a = a * 10 + c - '0', c = getchar();
}

bool sacmp(int a[], const int & i, const int & j, const int & k)
{
   return a[i] == a[j] && a[i + k] == a[j + k];
}

void getsa(int a[], int sa[], int ra[], int n, int m)
{
   memset(num, 0, (m + 1) << 2), x = xx, y = yy;
   for (int i = 1; i <= n; ++ i) ++ num[x[i] = a[i]];
   for (int i = 2; i <= m; ++ i) num[i] += num[i - 1];
   for (int i = n; i >= 1; -- i) sa[num[a[i]] --] = i;
   for (int j = 1, p = 0; m < n; j <<= 1, m = p, p = 0)
   {
      for (int i = n - j + 1; i <= n; ++ i) y[++ p] = i;
      for (int i = 1; i <= n; ++ i) if (sa[i] > j) y[++ p] = sa[i] - j;
      memset(num, 0, (m + 1) << 2);
      for (int i = 1; i <= n; ++ i) ++ num[z[i] = x[y[i]]];
      for (int i = 2; i <= m; ++ i) num[i] += num[i - 1];
      for (int i = n; i >= 1; -- i) sa[num[z[i]] --] = y[i];
      swap(x, y), p = x[sa[1]] = 1;
      for (int i = 2; i <= n; ++ i) x[sa[i]] = sacmp(y, sa[i], sa[i - 1], j) ? p : ++ p;
   }
   memcpy(ra, x, (n + 1) << 2);
}

void gethe(int a[], int sa[], int ra[], int he[], int n)
{
   for (int i = 1; i <= n; ++ i)
   {
      k = sa[ra[i] - 1], h[i] = h[i - 1] ? h[i - 1] - 1 : 0;
      while (a[i + h[i]] == a[k + h[i]]) ++ h[i];
      he[ra[i]] = h[i];
   }
}

bool okay(int k)
{
   for (int i = 1; i <= n; ++ i)
   {
      int j = i, mini = sa[i], maxi = sa[i];
      while (j + 1 <= n && he[j + 1] >= k)
         ++ j, mini = min(mini, sa[j]), maxi = max(maxi, sa[j]);
      if (mini + k <= maxi) return 1; else i = j;
   }
   return 0;
}

int main()
{
   freopen("a.in", "r", stdin);
   freopen("a.out", "w", stdout);
   
   while (scanf("%d", & n), n --)
   {
      ++ tt, m = 0, k = maxn, getint(a[1]);
      for (int i = 1; i <= n; ++ i) getint(a[i + 1]), k = min(k, a[i] = a[i + 1] - a[i]);
      for (int i = 1; i <= n; ++ i) d[a[i] -= k - 1] = tt; a[n + 1] = 0;
      for (int i = - 200; i <= 200; ++ i) if (d[i] == tt) c[i] = ++ m;
      for (int i = 1; i <= n; ++ i) a[i] = c[a[i]];
      getsa(a, sa, ra, n, m);
      gethe(a, sa, ra, he, n);
      if (okay(n)) printf("%d\n", n);
      else
      {
         l = 4, r = n;
         while (l < r) if (okay(mid = (l + r) >> 1)) l = mid + 1; else r = mid;
         if (l < 5) puts("0"); else printf("%d\n", l);
      }
   }
   
   return 0;
}


评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值