前言
几个星期后,我再打果然..各种细节QwQ【所以把代码丢这里容易找一点...
后缀数组模版+注释
#include<cstdio>
#include<cstring>
#include<cstdlib>
#include<iostream>
using namespace std;
int sa[11000],y[11000],rank[11000];
//sa[i]表示排第i的是suffix(sa[i])
//rank[i]表示suffix(i)在所有后缀中排第几
int a[11000],wr[11000],n,Rsort[11000],height[11000];
int mymax(int x,int y) {return (x>y)?x:y;}
bool cmp(int k1,int k2,int ln){return wr[k1]==wr[k2] && wr[k1+ln]==wr[k2+ln];}
void get_height(int len)
{
int k=0;//k存的是h[],因为只要用到前一项的所以只用变量存
//h[]的性质:h[i]>=h[i-1]-1;证明如下(suffix[i]表示i为开头的后缀):
//设suffix[k]是比suffix[i-1]排名前一位的,那么他们的最长公共前缀是height[i-1]
//把开头那一位去掉,所以suffix[k+1]与suffix[i]的最长公共前缀至少为height[i-1]-1;
for (int i=1;i<=len;i++)
{
int j=sa[rank[i]-1];
if (k>0) k--;
while (s[i+k]==s[j+k]) k++;
height[rank[i]]=k;
}
}//heigth[i]表示排名相邻的两个后缀的最长公共前缀
//h[i]=height[rank[i]]
void get_sa(int m) //构建SA后缀数组
{
int i,k,p,ln;
memcpy(rank,a,sizeof(rank));
//a数组:原字符串,rank名次数组
for (i=0;i<=m;i++) Rsort[i]=0;
for (i=1;i<=n;i++) Rsort[rank[i]]++;
for (i=1;i<=m;i++) Rsort[i]+=Rsort[i-1];
for (i=n;i>=1;i--) sa[Rsort[rank[i]]--]=i;
//以上四句为基数排序,不懂的看flash
ln=1; p=0;
//ln为当前子串的长度,p表示有多少不相同的子串
while (p<n)
{
for (k=0,i=n-ln+1;i<=n;i++) y[++k]=i;
for (i=1;i<=n;i++) if (sa[i]-ln>0) y[++k]=sa[i]-ln;
//先好好意会?这里y[..]存的是???
for (i=1;i<=n;i++) wr[i]=rank[y[i]];
//数组y保存的是对第二关键字排序的结果。注意是 -结果- !
//即只看第二关键字 排第i个的是suffix(y[i])
//数组wr保存的是对第二关键字排序后的rank值
//以下为对第一关键字排序
for (i=0;i<=m;i++) Rsort[i]=0;
for (i=1;i<=n;i++) Rsort[wr[i]]++;
for (i=1;i<=m;i++) Rsort[i]+=Rsort[i-1];
for (i=n;i>=1;i--) sa[Rsort[wr[i]]--]=y[i];
memcpy(wr,rank,sizeof(wr));
p=1; rank[sa[1]]=1;
for (i=2;i<=n;i++)
{
if (!cmp(sa[i],sa[i-1],ln)) p++;
rank[sa[i]]=p;
}//得到新的rank数组
m=p; ln*=2;
}a[0]=0; sa[0]=0;
}
int main()
{
int i,m=-1;char c;
n=0;scanf("%c",&c);
while (c!='\n')
{
a[++n]=c;
m=mymax(m,a[n]);
scanf("%c",&c);
} m+=10;get_sa(m);
get_height(n);
for (i=1;i<=n;i++)
printf("%d ",sa[i]);
system("pause");
return 0;
}