dc3 后缀数组构建 code

这篇博客详细介绍了DC3算法构建后缀数组的知识,包括相关原理和代码实现,内容参考了特定链接的资源,并结合了之前关于doubling algorithm的注释和理解,特别是涉及LCP、rank和height的计算部分。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

suffix array的 相关知识及利用doubling algorithm构建原理详见

http://download.youkuaiyun.com/detail/wmj75617718/6724275


以下代码根据上述链接的论文加以注释梳理而成,lcp、rank、height参照前篇doubling algorithm 构建后缀数组 code的相关部分


/* Difference Cover mod 3
 * 
*/

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#define maxn 1000003
#define F(x) ((x)/3+((x)%3==1?0:tb))
#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
int wa[maxn],wb[maxn],wv[maxn],ws[maxn];
int c0(int *r,int a,int b)
{return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];}
int c12(int k,int *r,int a,int b)
{if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1);
 else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];}
 
/* 计数排序
 */
void sort(int *r,int *a,int *b,int n,int m)
{
     int i;
     for(i=0;i<n;i++) wv[i]=r[a[i]];
     for(i=0;i<m;i++) ws[i]=0;
     for(i=0;i<n;i++) ws[wv[i]]++;
     for(i=1;i<m;i++) ws[i]+=ws[i-1];
     for(i=n-1;i>=0;i--) b[--ws[wv[i]]]=a[i];
     return;
}

/*
 * 用dc3算法求r的后缀数组:
 * r = aabaabaaaaba0 (末尾的0不是字符'0',而是'\0'); n = strlen(r) + 1;
 * 1、对r中起始位置不是3的倍数的后缀 suffixN3 按照前三个字符进行排序
 *    得到后缀数组 satmp1:
 *      satmp1 = {11, 7, 8, 1, 4, 10, 2, 5};
 * 2、根据 satmp1 求名次数组 ranktmp1 (前三个字符相同则名次相同):
 *      ranktmp1 = {3, 3, 1, 4, 5, 5, 2, 0};
 * 3、对 ranktmp1 构成的字符串 33145520(新字符串的每一个数字就是suffixN3
 *    中前三个字符根据其大小而赋予的权值) 求其后缀数组 san:
 *      若 ranktmp1 中有重复的名次,递归求后缀数组 san;
 *      若 ranktmp1 中没有重复的名次,直接求后缀数组 san[ranktmp1[i]] = i;
 * 4、根据 san 求r中起始位置是3的倍数的后缀的后缀数组wa
 * 5、根据 san 求r中起始位置不是3的倍数的后缀的后缀数组wb
 * 6、合并wa和wb,得到最终的r的后缀数组sa
 */
void dc3(int *r,int *sa,int n,int m)
{
     int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;
     r[n]=r[n+1]=0;
	 
	 // 对起始位置不是3的倍数的后缀求后缀数组wb
     for(i=0;i<n;i++) if(i%3!=0) wa[tbc++]=i;
     sort(r+2,wa,wb,tbc,m); // 此行及接下来两行根据所有后
     sort(r+1,wb,wa,tbc,m); // 缀的前三个字符进行基数排序
     sort(r,wa,wb,tbc,m);
     for(p=1,rn[F(wb[0])]=0,i=1;i<tbc;i++)
		rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;
     if(p<tbc) dc3(rn,san,tbc,p);
     else for(i=0;i<tbc;i++) san[rn[i]]=i;
	 
	 // 对起始位置是3的倍数的后缀求后缀数组wa
     for(i=0;i<tbc;i++) if(san[i]<tb) wb[ta++]=san[i]*3;
     if(n%3==1) wb[ta++]=n-1;
     sort(r,wb,wa,ta,m);
	 
	 // 对起始位置不是3的倍数的后缀还原后缀数组wb并求名次数组wv
     for(i=0;i<tbc;i++) wv[wb[i]=G(san[i])]=i;
	 
	 // 归并合并wa和wb
     for(i=0,j=0,p=0;i<ta && j<tbc;p++)
		sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];
     for(;i<ta;p++) sa[p]=wa[i++];
     for(;j<tbc;p++) sa[p]=wb[j++];
	 
     return;
}

int main()
{
	int r[256], sa[256];
	const char *str = "aabaabaaaaba";
	
	for (int i = 0; i <= strlen(str); i++)
		r[i] = str[i];
		
	dc3(r, sa, strlen(str) + 1, 'z' + 1);
	
	for (int i = 1; i <= strlen(str); i++)
		printf("%d: %s\n", sa[i], str + sa[i]);
	
	return 0;
}


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值