[POJ3415]Common Substrings && 后缀数组+单调栈

本文介绍了一种利用后缀数组和单调栈求解两个字符串间长度为k的重复子串数量的方法。通过构建后缀数组及高度数组,并采用单调栈优化统计过程,实现了高效的子串匹配。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

被这个东西狂虐一上午T_T

果然像我这样的人最好早点滚粗 

果然像我这样的人最好早点滚粗 

果然像我这样的人最好早点滚粗 

(因为很重要所以要说三遍)


首先我们要想办法求一个串的k长度重复字串 然后我们就会想到用后缀数组来求 那么这个公共字串问题就可以转化为分别求 s1, s2, s1+s2的k重复字串数

构造完后缀数组和height数组(偷懒的我简称h数组)后 可以发现 假设有x个h值为d(d >= k)

的后缀组成了一个连续的区间 这个区间对总数的贡献值即为C(x, 2) * (d - k + 1)

如果暴力进行统计的话时间复杂度据说会高达O(n^2) (其实我也不知道是怎么一回事Orz)

所以我们需要一个优化策略—单调栈 (一下内容逻辑混乱 观看需谨慎)

我们用一个单调栈来维护一个区间的起点信息

我们会遇到以下情况 

1. 栈为空并且h[i] < K 这个时候我们直接跳过i

2. h[i]与栈顶元素的h值相同 组成一个连续区间 直接continue掉

3.如果h[i]大于栈顶元素的h值 把i入栈

4.如果h[i]小于栈顶元素 这里需要分为两种情况

    ① h[i] >= K 并且h[i]大于栈顶下面一个元素 和单调队列的思想类似 我们需要维护个单增的栈 那么就必须把现在栈顶的元素弹出来进行计算 那么从i到栈顶元素的区间的贡献值为C(区间长度, 2) * (h[S[top]] - h[i]) 

为什么只计算栈顶元素与i的差值呢 这是因为i将会继续被保留在单调栈中 所以i - K         + 1的部分会在之后被计算到。 计算完成之后 将h[S[top]] 更改为 h[i]

   ② h[i] <= h[S[top-1]] 那么排名第i+1的后缀与S[top-1]的LCP也不会超过i和S[top-1]的LCP 所以S[top]不再对之后作出更多的贡献 我们将他出栈 同时这一段区间的贡献值更改为 h[S[top]] - h[S[top-1]]

至此 本题得到完美解决 

#include<cstdio>
#include<algorithm>
#include<cstring>
#include<iostream>
#include<queue>
#define SF scanf
#define PF printf
using namespace std;
typedef long long LL;
const int MAXN = 200000;
int sa[MAXN+10], Rank[MAXN+10], tmp[MAXN+10], top[MAXN+10], h[MAXN+10], S[MAXN+10];
int K;
char s1[MAXN+10], s2[MAXN+10], s[MAXN+10], r[MAXN+10];
bool CMP(int *y, int i, int k, int n) {
    if(y[sa[i]] != y[sa[i-1]]) return false;
    if(sa[i]+k >= n || sa[i-1]+k >= n) return false;
    return y[sa[i]+k] == y[sa[i-1]+k];
}
void GetSA(int m, int n) {
    int *x = Rank, *y = tmp;  
    for(int i = 0; i < m; i++) top[i] = 0;  
    for(int i = 0; i < n; i++) top[x[i] = s[i]]++;  
    for(int i = 1; i < m; i++) top[i] += top[i-1];  
    for(int i = n-1; i >= 0; i--) sa[--top[x[i]]] = i;  
    for(int k = 1; k <= n; k <<= 1) {
        int p = 0;
        for(int i = n-k; i < n; i++) y[p++] = i;
        for(int i = 0; i < n; i++) if(sa[i] >= k) y[p++] = sa[i] - k;
        for(int i = 0; i < m; i++) top[i] = 0;
        for(int i = 0; i < n; i++) top[x[y[i]]]++;
        for(int i = 1; i < m; i++) top[i] += top[i-1];
        for(int i = n-1; i >= 0; i--) sa[--top[x[y[i]]]] = y[i];
        swap(x, y); p = 1; x[sa[0]] = 0;
        for(int i = 1; i < n; i++)
            x[sa[i]] = CMP(y, i, k, n) ? p-1 : p++;
        if(p >= n) break;
        m = p;
    }
}
void GetH(int n) {
    int k = 0;
    for(int i = 1; i <= n; i++) Rank[sa[i]] = i;
    for(int i = 0; i < n; i++) {
        if(k) k--;
        int j = sa[Rank[i]-1];
        while(s[i+k] == s[j+k]) k++;
        h[Rank[i]] = k;
    } 
}
LL calc(char *str) {
	int n = strlen(str), i, F, height;
	LL ret = 0, con, tmp;
	for(int i = 0; i < n; i++) s[i] = str[i]; s[n] = 0;
	GetSA(130, n+1); GetH(n);
	h[0] = h[n+1] = K-1;
	F = 0; i = 1; S[0] = 0;
	while(i <= n+1) {
		height = h[S[F]];
		if(h[i] < K && !F) i++;
		else if(h[i] == height) i++;
		else if(h[i] > height) S[++F] = i++;
		else {
			con = i - S[F] + 1;
			if(h[i] >= K && h[i] > h[S[F-1]]) {
				tmp = height - h[i];
				h[S[F]] = h[i];
			}
			else {
				tmp = height - h[S[F-1]];
				F--;
			}
			ret += 1LL * con * (con-1) / 2 * tmp;
		}
	}
	return ret;
}
int main() {
	int N, M;
	while(scanf("%d", &K) && K) {
		memset(r, 0, sizeof(r));
		memset(s, 0, sizeof(s));
		scanf("%s", s1); scanf("%s", s2);
		LL a = calc(s1), b = calc(s2);
		N = strlen(s1), M = strlen(s2);
		for(int i = 0; i < N; i++) r[i] = s1[i]; r[N] = ' ';
		for(int i = 0; i < M; i++) r[N+i+1] = s2[i];
		LL c = calc(r);
		cout << c-a-b << '\n';
	}
    return 0;
}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值