后缀数组的学习(三):SA数组实现代码分析

最新推荐文章于 2024-07-24 11:25:06 发布

weixin_33895516

最新推荐文章于 2024-07-24 11:25:06 发布

阅读量108

点赞数

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_33895516/article/details/85083223

本文详细解析了倍增算法思想在后缀数组构建中的应用。通过两次排序过程，尤其是巧妙利用辅助数组进行下标排序的方法，展示了如何高效地完成后缀排序。并为后续的倍增算法核心部分打下了基础。

在前面的博文里面分析了SA数组和rank数组的实现过程，实际上也就是倍增算法的思想分析！虽然思想上面懂了，但是代码实现还是很难理解的！因为代码里面做了太多的优化。

整个代码的实现可以分成两部分：1、对所有后缀的第一次排序！运用第一次排序的结果来推算后面的排序！

一、对所有后缀的第一次排序：

for (i = 0; i < m; i++) ws[i] = 0;
for (i = 0; i < n; i++) ws[x[i] = r[i]]++;
for (i = 1; i < m; i++) ws[i] += ws[i - 1];
for (i = n - 1; i >= 0; i--) sa[--ws[x[i]]] = i;

这里用到了x和ws两个辅助数组！一般而言，用一个辅助数组就很难理解了，作者竟然用了两个！这主要是因为：我们通常用到的排序是value的排序，我们是不理会下标的。而这里是对value排序，但是输出的结果却是下标！所以，这里的排序又变得复杂了。我们不仅要考虑value，还要考虑index，我觉得这才是真正难以理解后缀数组的地方。

这里的排序实际上是用的是，我觉得类似于Hash的方式。把字符串r数组的value映射到辅助数组ws的index。这样的话实际已经排序了，但是我们SA数组存储的是下标，这里才是难点！该怎么做呢？我们知道ws里面存储的其实是r字符串中各个字符的个数。这里我们转化一下，转化成每个字符的排名：比如

假设：ws中是这样存储的：

index: 65 66 67 68 69
value: 1 2 1 1 2

其实就是：字符串中字符及个数分别是：

A：1 B:2 C:1 D:1 E:2

转化成排名：( for (i = 1; i < m; i++) ws[i] += ws[i - 1]; )

则ws变成：

index: 65 66 67 68 69
value: 1 3 4 5 7

这样的话，我们存储下标的时候就可以这样：

for (i = n - 1; i >= 0; i--) sa[--ws[x[i]]] = i;

由于下标从0开始，而且可能相同的字符不止一个，故需要--ws[x[i]]; 就用原字符串逆序的方式把排序后后缀下标存储到sa数组了！

个人感觉计算过程真的是挺精巧的！里面包含的思想，真的值得我深入学习！大牛就是大牛！

由于x数组已经类似于计算出排名了，所以我们不需要真正去计算了，如果需要计算的话：把里面的值减一个最小值然后加1就可以了！

总的来说，只考虑后缀首字母的话，对后缀排序还是比较简单的！更难的在下面用倍增的思想对整个后缀排序的过程。这才是倍增算法的真正核心！上面充其量是预处理罢了！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。