[POJ3415]Common Substrings && 后缀数组+单调栈-优快云博客

本文介绍了一种利用后缀数组和单调栈求解两个字符串间长度为k的重复子串数量的方法。通过构建后缀数组及高度数组，并采用单调栈优化统计过程，实现了高效的子串匹配。

被这个东西狂虐一上午T_T

果然像我这样的人最好早点滚粗

（因为很重要所以要说三遍）

首先我们要想办法求一个串的k长度重复字串然后我们就会想到用后缀数组来求那么这个公共字串问题就可以转化为分别求 s1, s2, s1+s2的k重复字串数

构造完后缀数组和height数组(偷懒的我简称h数组)后可以发现假设有x个h值为d(d >= k)

的后缀组成了一个连续的区间这个区间对总数的贡献值即为C(x, 2) * (d - k + 1)

如果暴力进行统计的话时间复杂度据说会高达O(n^2) （其实我也不知道是怎么一回事Orz）

所以我们需要一个优化策略—单调栈（一下内容逻辑混乱观看需谨慎）

我们用一个单调栈来维护一个区间的起点信息

我们会遇到以下情况

1. 栈为空并且h[i] < K 这个时候我们直接跳过i

2. h[i]与栈顶元素的h值相同组成一个连续区间直接continue掉

3.如果h[i]大于栈顶元素的h值把i入栈

4.如果h[i]小于栈顶元素这里需要分为两种情况

① h[i] >= K 并且h[i]大于栈顶下面一个元素和单调队列的思想类似我们需要维护个单增的栈那么就必须把现在栈顶的元素弹出来进行计算那么从i到栈顶元素的区间的贡献值为C(区间长度, 2) * (h[S[top]] - h[i])

为什么只计算栈顶元素与i的差值呢这是因为i将会继续被保留在单调栈中所以i - K + 1的部分会在之后被计算到。计算完成之后将h[S[top]] 更改为 h[i]

② h[i] <= h[S[top-1]] 那么排名第i+1的后缀与S[top-1]的LCP也不会超过i和S[top-1]的LCP 所以S[top]不再对之后作出更多的贡献我们将他出栈同时这一段区间的贡献值更改为 h[S[top]] - h[S[top-1]]

至此本题得到完美解决

#include<cstdio>
#include<algorithm>
#include<cstring>
#include<iostream>
#include<queue>
#define SF scanf
#define PF printf
using namespace std;
typedef long long LL;
const int MAXN = 200000;
int sa[MAXN+10], Rank[MAXN+10], tmp[MAXN+10], top[MAXN+10], h[MAXN+10], S[MAXN+10];
int K;
char s1[MAXN+10], s2[MAXN+10], s[MAXN+10], r[MAXN+10];
bool CMP(int *y, int i, int k, int n) {
    if(y[sa[i]] != y[sa[i-1]]) return false;
    if(sa[i]+k >= n || sa[i-1]+k >= n) return false;
    return y[sa[i]+k] == y[sa[i-1]+k];
}
void GetSA(int m, int n) {
    int *x = Rank, *y = tmp;  
    for(int i = 0; i < m; i++) top[i] = 0;  
    for(int i = 0; i < n; i++) top[x[i] = s[i]]++;  
    for(int i = 1; i < m; i++) top[i] += top[i-1];  
    for(int i = n-1; i >= 0; i--) sa[--top[x[i]]] = i;  
    for(int k = 1; k <= n; k <<= 1) {
        int p = 0;
        for(int i = n-k; i < n; i++) y[p++] = i;
        for(int i = 0; i < n; i++) if(sa[i] >= k) y[p++] = sa[i] - k;
        for(int i = 0; i < m; i++) top[i] = 0;
        for(int i = 0; i < n; i++) top[x[y[i]]]++;
        for(int i = 1; i < m; i++) top[i] += top[i-1];
        for(int i = n-1; i >= 0; i--) sa[--top[x[y[i]]]] = y[i];
        swap(x, y); p = 1; x[sa[0]] = 0;
        for(int i = 1; i < n; i++)
            x[sa[i]] = CMP(y, i, k, n) ? p-1 : p++;
        if(p >= n) break;
        m = p;
    }
}
void GetH(int n) {
    int k = 0;
    for(int i = 1; i <= n; i++) Rank[sa[i]] = i;
    for(int i = 0; i < n; i++) {
        if(k) k--;
        int j = sa[Rank[i]-1];
        while(s[i+k] == s[j+k]) k++;
        h[Rank[i]] = k;
    } 
}
LL calc(char *str) {
	int n = strlen(str), i, F, height;
	LL ret = 0, con, tmp;
	for(int i = 0; i < n; i++) s[i] = str[i]; s[n] = 0;
	GetSA(130, n+1); GetH(n);
	h[0] = h[n+1] = K-1;
	F = 0; i = 1; S[0] = 0;
	while(i <= n+1) {
		height = h[S[F]];
		if(h[i] < K && !F) i++;
		else if(h[i] == height) i++;
		else if(h[i] > height) S[++F] = i++;
		else {
			con = i - S[F] + 1;
			if(h[i] >= K && h[i] > h[S[F-1]]) {
				tmp = height - h[i];
				h[S[F]] = h[i];
			}
			else {
				tmp = height - h[S[F-1]];
				F--;
			}
			ret += 1LL * con * (con-1) / 2 * tmp;
		}
	}
	return ret;
}
int main() {
	int N, M;
	while(scanf("%d", &K) && K) {
		memset(r, 0, sizeof(r));
		memset(s, 0, sizeof(s));
		scanf("%s", s1); scanf("%s", s2);
		LL a = calc(s1), b = calc(s2);
		N = strlen(s1), M = strlen(s2);
		for(int i = 0; i < N; i++) r[i] = s1[i]; r[N] = ' ';
		for(int i = 0; i < M; i++) r[N+i+1] = s2[i];
		LL c = calc(r);
		cout << c-a-b << '\n';
	}
    return 0;
}