suffix array的 相关知识及利用doubling algorithm构建原理详见
http://download.youkuaiyun.com/detail/wmj75617718/6724275
以下代码根据上述链接的论文加以注释梳理而成,lcp、rank、height参照前篇doubling algorithm 构建后缀数组 code的相关部分
/* Difference Cover mod 3
*
*/
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define maxn 1000003
#define F(x) ((x)/3+((x)%3==1?0:tb))
#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
int wa[maxn],wb[maxn],wv[maxn],ws[maxn];
int c0(int *r,int a,int b)
{return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];}
int c12(int k,int *r,int a,int b)
{if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1);
else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];}
/* 计数排序
*/
void sort(int *r,int *a,int *b,int n,int m)
{
int i;
for(i=0;i<n;i++) wv[i]=r[a[i]];
for(i=0;i<m;i++) ws[i]=0;
for(i=0;i<n;i++) ws[wv[i]]++;
for(i=1;i<m;i++) ws[i]+=ws[i-1];
for(i=n-1;i>=0;i--) b[--ws[wv[i]]]=a[i];
return;
}
/*
* 用dc3算法求r的后缀数组:
* r = aabaabaaaaba0 (末尾的0不是字符'0',而是'\0'); n = strlen(r) + 1;
* 1、对r中起始位置不是3的倍数的后缀 suffixN3 按照前三个字符进行排序
* 得到后缀数组 satmp1:
* satmp1 = {11, 7, 8, 1, 4, 10, 2, 5};
* 2、根据 satmp1 求名次数组 ranktmp1 (前三个字符相同则名次相同):
* ranktmp1 = {3, 3, 1, 4, 5, 5, 2, 0};
* 3、对 ranktmp1 构成的字符串 33145520(新字符串的每一个数字就是suffixN3
* 中前三个字符根据其大小而赋予的权值) 求其后缀数组 san:
* 若 ranktmp1 中有重复的名次,递归求后缀数组 san;
* 若 ranktmp1 中没有重复的名次,直接求后缀数组 san[ranktmp1[i]] = i;
* 4、根据 san 求r中起始位置是3的倍数的后缀的后缀数组wa
* 5、根据 san 求r中起始位置不是3的倍数的后缀的后缀数组wb
* 6、合并wa和wb,得到最终的r的后缀数组sa
*/
void dc3(int *r,int *sa,int n,int m)
{
int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;
r[n]=r[n+1]=0;
// 对起始位置不是3的倍数的后缀求后缀数组wb
for(i=0;i<n;i++) if(i%3!=0) wa[tbc++]=i;
sort(r+2,wa,wb,tbc,m); // 此行及接下来两行根据所有后
sort(r+1,wb,wa,tbc,m); // 缀的前三个字符进行基数排序
sort(r,wa,wb,tbc,m);
for(p=1,rn[F(wb[0])]=0,i=1;i<tbc;i++)
rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;
if(p<tbc) dc3(rn,san,tbc,p);
else for(i=0;i<tbc;i++) san[rn[i]]=i;
// 对起始位置是3的倍数的后缀求后缀数组wa
for(i=0;i<tbc;i++) if(san[i]<tb) wb[ta++]=san[i]*3;
if(n%3==1) wb[ta++]=n-1;
sort(r,wb,wa,ta,m);
// 对起始位置不是3的倍数的后缀还原后缀数组wb并求名次数组wv
for(i=0;i<tbc;i++) wv[wb[i]=G(san[i])]=i;
// 归并合并wa和wb
for(i=0,j=0,p=0;i<ta && j<tbc;p++)
sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];
for(;i<ta;p++) sa[p]=wa[i++];
for(;j<tbc;p++) sa[p]=wb[j++];
return;
}
int main()
{
int r[256], sa[256];
const char *str = "aabaabaaaaba";
for (int i = 0; i <= strlen(str); i++)
r[i] = str[i];
dc3(r, sa, strlen(str) + 1, 'z' + 1);
for (int i = 1; i <= strlen(str); i++)
printf("%d: %s\n", sa[i], str + sa[i]);
return 0;
}