openGauss - 向量化执行引擎算子HashAgg解读

最新推荐文章于 2025-06-29 18:17:28 发布

原创最新推荐文章于 2025-06-29 18:17:28 发布 · 935 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#哈希算法 #算法 #gaussdb #oracle #数据库 #架构 #SQL

openGauss经验总结专栏收录该内容

168 篇文章

订阅专栏

本文作者：闫宗帅

对于分组聚合来说，可以通过排序将待排序值按照大小排列起来，相同的值就紧密连在一起，然后依次遍历，遇到不相同的值就得到一个分组。另一种方式是通过Hash来完成，将所有值都构建到hash表中，同一个桶的值即为一个分组（hash冲突的场景忽略）。openGauss的向量化执行引擎如何通过Hash来实现聚合？

1、HashAggRunner类

HashAggRunner类是Hash Agg执行的对象，主要成员及其关系如下图所示：

1）m_hashVal[]:数组大小是batch大小，存储着batch每行hash列的hash值：

1）Hash表由m_hashData管理，hash表数据都在内存则总是使用m_hashData[0]，由两个成员组成：tbl_size为hash表大小，tbl_data为hash表

2）tbl_data[]为hash表，hash表存储hashCell*指针。也就是每个分组的值放到这里。Hash表的大小就是分组数：

该分组数是根据work_mem和以及统计信息估算出来的。

1）m_cacheLoc[]数组存储每行记录的hash桶号，计算方法：m_hashVal[i] & (m_hashSize - 1)。可以看到，不同值肯定会存在放在同一个桶的情况。

2）m_Loc[]数组存放hashCell，而hashCell则表示每个分组值，当发生hash冲突时，以链表的形式挂载同一个桶上。

3）HashAgg分组聚合的计算方式：这里忽略hash冲突的场景

比如有一列值：

依次：第一行1hash后放到桶1，然后将1的cell放到m_Loc[0]；2放到m_Loc[1]；1hash到桶1，使用桶1的cell,将其放到m_Loc[2]；3放到m_Loc[3]；2的cell存放到m_Loc[4]。那么m_Loc[]数组依次存储的cell为：

这样将m_Loc[]数组带入向量化计算函数中，对其进行聚合，比如count：

for( i &lt; nrows ){   m_Loc[i].cell++;}

2、流程

1）HashAggRunner::Run函数是向量化HashAgg操作入口函数，Build函数用于构建hash表并进行聚合；Probe函数用于构建聚合输出结果

2）构建hash表的具体函数为HashAggRunner::buildAggTbl，对于hash冲突的值以链表的形式挂载同一个桶上，总是向链表头插入；构建的过程中进行分组聚合时，需要进一步调用函数match_key在链表上进行匹配

3）HashAggRunner::Probe函数用于将cell值即hash表中的值构建到输出结果batch中，中间若有QUAL条件，则需要过滤后投影输出。

14 条评论

爱喝兽奶的荒天帝 2024.08.25
谢谢大佬的分享，期待大佬的更多精彩文章，让我们共同学习、进步。也欢迎您来逛逛我的博客哦~~在此提前感谢您对我的互/三/支持~~

越重天 2024.08.24
文章技术含量高，表达清晰易懂，‌排版整齐易读，极具专业性。‌愿博主闲暇时分能到小弟寒舍指点江山，小弟万分荣幸~

盼小辉丶 2024.08.23
优质好文，收藏起来慢慢学习~

宝码香车 2024.08.23
作者的理解十分深刻透彻。全文语言铿锵有力，掷地有声，读来令人热血沸腾，心潮澎湃。使人对编程，有更强烈的向往。收藏，以防以后找不到了！

Srlua小谢 2024.08.21
文章中提到的这个设计模式我之前只是听说过，但经过作者的深入剖析后，我现在已经能够灵活运用了。也欢迎您来逛逛我的博客哦~~在此提前感谢您对我的互/三/支持~~

猫头虎 2024.08.21
🌈🐅🚀 大佬，这篇博客真是太赞了！结构清晰，内容丰富，每个点都讲得很透彻。猫头虎🐅在线等更多佳作！🖥️

喜酱酱紫 2024.08.20
内容真心不错啊，收藏了，分享给需要的小伙伴

玲珑小番茄 2024.08.20
对于分组聚合来说，可以通过排序将待排序值按照大小排列起来，相同的值就紧密连在一起，然后依次遍历，遇到不相同的值就得到一个分组。内容真的很不错！

IMcoolgeek 2024.08.20
HashAggRunner::Run函数是向量化HashAgg操作入口函数，Build函数用于构建hash表并进行聚合；Probe函数用于构建聚合输出结果

如清风一般 2024.08.20
你的文字，‌如星河璀璨，‌字字珠玑，‌句句凝炼，‌令人陶醉其中，‌无法自拔。‌收藏，以后经常观摩！