【摘要】
排序计算是一个非常消耗资源的操作,特别是对于大数据排序,如果内存无法装下数据,常规的做法就需要借助外存,不过因此也会增加对数据的读写操作,而读写操作通常又会比排序操作更消耗资源。
让我们一起去乾学院看个究竟吧:SPL 排序优化技巧
本文介绍的SPL排序优化技巧,除了提供常规的排序算法外,还根据不同场景下的数据特性提供了排序的替代算法,从而减少比较次数和IO量,提升运算性能。
1.内存排序
当数据可以轻松装入内存时,可以使用SPL的内存排序函数,如A.sort()。SPL默认的排序算法是基于merge sort的多线程排序算法,也就是说,此时的优化方式主要是通过增加线程数量实现的。实际采用的线程数由集算器配置中的[最大并行数]指定。示例代码如下:
| A |
B |
|
| 1 |
=5000*1000 |
/元素数 |
| 2 |
=A1\1000 |
/随机数最大值 |
| 3 |
=to(A1).(rand(A2)) |
/生成随机序列 |
| 4 |
=now() |
/当前时间 |
| 5 |
=A3.sort() |
/升序排序 |
| 6 |
=interval@ms(A4,now()) |
/排序花费的时间 |
实测使用的的测试机CPU是酷睿i7 ,4核心 8线程,根据 [最大并行数]配置的不同,测试结果如下:
| 最大并行数 |
平均花费时间(毫秒) |
| 1(即单线程) |
1800 |
| 4 |
800 |
| 8 |
660 |
可见,多核心CPU或多CPU计算机通过多线程排序可以充分利用每个核心的并行计算能力,显著提升排序性能。
此例中每个值的重复量平均为1000,对A.sort()函数来说,重复数量的多少对性能影响不大。但在重复数量较多时,我们还可以通过分组法A.group@s()进行排序,进一步提高性能。此方法首先利用哈希法对元素进行分组,然后再对组进行排序,最后合并排序后的组得到排序结果。示例代码如下:
| A |
B |
|
| 1 |
=5000*1000 |
/元素数 |
| 2 |
=A1\1000 |
/随机数最大值 |
| 3 |
=to(A1).(rand(A2)) |
/生成随机序列 |
| 4 |
=now() |
/当前时间 |
| 5 |
=A3.group@s() |
/每个值平均有1000个重复的,使用分组法进行升序排序 |

本文详细介绍了SPL排序的优化技巧,包括内存排序利用多线程提升性能,外存排序通过调整读入数据量优化,多路归并减少资源占用,以及针对前半有序数据和索引排序的特殊处理,以提升大数据排序的效率。
最低0.47元/天 解锁文章
686

被折叠的 条评论
为什么被折叠?



