DuckDB:最快的表排序 - 重新设计 DuckDB 的排序功能

译文,原文链接:Fastest Table Sort in the West – Redesigning DuckDB’s Sort – DuckDB

数据库系统出于多种目的使用排序,最明显的是当用户在查询中添加 ORDER BY 子句时。排序还用于操作符内部,例如窗口函数。DuckDB 最近改进了其排序实现,现在能够并行排序,并且可以排序比内存中更多的数据。在这篇文章中,我们将看看 DuckDB 是如何排序的,以及这与其他数据管理系统相比如何。

关系数据排序

排序是计算机科学中研究得最透彻的问题之一,也是数据管理的一个重要方面。排序算法的研究往往集中在对大型数组或键/值对进行排序。虽然这很重要,但这并没有涵盖如何在数据库系统中实现排序。对表进行排序不仅仅是对大型整数数组进行排序!

考虑以下对 TPC-DS 表片段的示例查询:

SELECT c_customer_sk, c_birth_country, c_birth_year
FROM customer
ORDER BY c_birth_country DESC,
         c_birth_year    ASC NULLS LAST;

结果如下:

c_customer_sk c_birth_country c_birth_year
64760 NETHERLANDS 1991
75011 NETHERLANDS 1992
89949 NETHERLANDS 1992
90766 NETHERLANDS NULL
42927 GERMANY 1924

换句话说:c_birth_country 按降序排列,当 c_birth_country 相等时,我们按 c_birth_year 升序排列。通过指定 NULLS LASTc_birth_year 列中的空值被视为最低值。因此,整个行被重新排序,不仅仅是 ORDER BY 子句中的列。不在 ORDER BY 子句中的列我们称之为“负载列”。因此,负载列 c_customer_sk 也必须重新排序。

使用任何排序实现来评估示例查询是很容易的,例如 C++ 的 std::sort。尽管 std::sort 在算法上是优秀的,但它仍然是单线程的方法,无法高效地按多列排序,因为函数调用开销会很快主导排序时间。下面我们将讨论为什么。

为了在排序表时获得良好的性能,需要自定义排序实现。当然,我们并不是第一个实现关系排序的人,所以我们查阅了文献以寻求指导。

2006 年,著名的 Goetz Graefe 写了一篇关于在数据库系统中实现排序的综述。在这篇综述中,他收集了许多已知的排序技术。如果你正要开始为表实现排序,这是一个很好的指导方针。

排序的成本主要由比较值和移动数据主导。任何使这两个操作更便宜的东西都将对总运行时间产生重大影响。

当有多个 ORDER BY 子句时,实现比较器有两种明显的方法:

  1. 循环遍历子句:比较列,直到我们找到一个不相等的列,或者直到我们比较了所有列。这已经相当复杂了,因为这需要一个带有 if/else 的循环,用于每一行数据。如果我们的存储是列式的,这个比较器必须在列之间跳跃,导致内存中的随机访问。

  2. 完全按第一个子句对数据进行排序,然后按第二个子句排序,但仅在第一个子句相等的地方,依此类推。当有许多重复值时,这种方法特别低效,因为它需要多次遍历数据。

二进制字符串比较

二进制字符串比较技术通过简化比较器来提高排序性能。它将 ORDER BY 子句中的所有列编码成一个单一的二进制序列,当使用 memcmp 进行比较时,将产生正确的总体排序顺序。编码数据并非免费,但由于我们在排序过程中频繁使用比较器,因此这是值得的。让我们再看看示例中的 3 行:

c_birth_country c_birth_year
NETHERLANDS 1991
NETHERLANDS 1992
GERMANY 1924

在小端硬件上,这些值在内存中的字节表示如下,假设年份是 32 位整数表示:

c_birth_country
-- NETHERLANDS
01001110 01000101 01010100 01001000 01000101 01010010 01001100 01000001 01001110 01000100 01010011 00000000
-- GERMANY
01000111 01000101 01010010 01001101 01000001 01001110 01011001 00000000

c_birth_year
-- 1991
11000111 00000111 00000000 00000000
-- 1992
11001000 00000111 00000000 00000000
-- 1924
10000100 00000111 00000000 00000000

诀窍是将这些转换为编码排序顺序的二进制字符串:

-- NETHERLANDS | 1991
10110001 10111010 10101011 10110111 10111010 10101101 10110011 10111110 10110001 10111011 10101100 11111111
10000000 00000000
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值