理解后缀数组:
个人理解:
后缀数组通过将后缀按字典序排序,得到关键的3个数组:
sa[i]:排名为 i 的后缀的起始下标。
rank[i]:起始下标为 i 的后缀的排名。
height[i]:Suffix[sa[i]]和Suffix[sa[i-1]]的最长公共前缀,即为排名相邻的两个后缀的最长公共前缀。
题目一般都是通过操作这3个数组来求解。
重要定理:
设LCP(i,j)为Suffix(sa[i])和Suffix(sa[j])的最长公共前缀
LCP(i,k) = min{ LCP(i,j) , LCP(j,k) } , 任意0<=i<=j<=k<n
LCP(i,k) = min{ LCP(j,j-1) } , 任意 0<i<=j<=k<n , 即 LCP(i,k) = min{ height[j] } , 任意 0<i+1<=j<=k<n (在排序状态下)
应用:
例题:
模板(倍增):
#include<bits/stdc++.h>
using namespace std;
typedef long long ll;
const int MAX = 2e5+10;
const ll mod = 1e9+7;
/*
*倍增算法nlogn
*将待排序数组放在0~n-1中,在最后补一个0
*build(,n+1,);//注意是n+1
*getHeight(,n);
*例如:
*n = 8;
*num[] = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0
*Rank[] = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值
*sa[] = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值
*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值
*/
char str[MAX];
int s[MAX];
int t1[MAX],t2[MAX],c[MAX],sa[MAX],rk[MAX],height[MAX];
void init()
{
memset(t1,0,sizeof(t1));
memset(t2,0,sizeof(t2));
memset(c,0,sizeof(c));
memset(sa,0,sizeof(sa));
memset(rk,0,sizeof(rk));
memset(height,0,sizeof(height));
}
//求SA数组
void get_SA(int s[],int n,int m){
int *x=t1,*y=t2;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[i]=s[i]]++;
for(int i=1;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i;
for(int k=1;k<=n;k<<=1){
int p=0;
for(int i=n-k;i<n;i++) y[p++]=i;
for(int i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[y[i]]]++;
for(int i=0;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];
swap(x,y);
p=1;
x[sa[0]]=0;
for(int i=1;i<n;i++)
x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;
if(p>=n) break;
m=p;
}
}
//求height和rank数组
void get_height(int s[],int n)
{
int k=0;
for(int i=0;i<=n;i++)
rk[sa[i]]=i;
for(int i=0;i<n;i++){
if(k) k--;
int j=sa[rk[i]-1];
while(s[i+k]==s[j+k]) k++;
height[rk[i]]=k;
}
}
int main()
{
scanf("%s",str);
int n=strlen(str);
//将待排序数组放在0~n-1中
for(int i=0;i<n;i++)
s[i]=str[i];
//最后补一个0
s[n]=0;
init();
get_SA(s,n+1,128); //数组长度传入n+1
get_height(s,n); //数组长度传入n
return 0;
}