【PGCCC】Postgresql 动态哈希表实现

最新推荐文章于 2025-07-07 20:33:34 发布

原创

最新推荐文章于 2025-07-07 20:33:34 发布 · 1.2k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#postgresql #散列表 #数据库

结构图

hash 表包含了多个 segment 切片，每个 segment 包含了相同数量的 bucket。里面的 bucket 使用链表存储着 hash 值相同的元素。
在这里插入图片描述
当查找指定的 key 时，首先计算出它的哈希值，然后根据后面的几位数，计算出对应的 bucket 位置。之后遍历 bucket 的元素链表，查看是否有 key 元素。

当增加元素时，同样先找到对应 bucket 位置，然后查看是否存在对应的链表中。如果不存在，直接添加到尾部。如果存在则可以覆盖或者报错。

当删除元素时，同样先找到对应 bucket 位置，然后查看是否存在对应的链表中。如果存在，则只需要将其从链表中删除即可。

扩容原理

postgresql 只会在负载率过高的情况下，发生扩容操作。并且它的一次扩容只会增加一个 bucket。我们来举个例子，查看下它的扩容过程。我们先初始化只有2个 bucket 的哈希表，
在这里插入图片描述
计算 key 对应的 bucket 位置，需要涉及到 hign_mask 和 low_mask。下面程序实现了

/* Convert a hash value to a bucket number */
static inline uint32 calc_bucket(HASHHDR *hctl, uint32 hash_val)
{
	uint32 bucket = hash_val & hctl->high_mask;
	if (bucket > hctl->max_bucket)
		bucket = bucket & hctl->low_mask;
	return bucket;
}

当发生扩容时，会计算新增bucket的元素和原先哪个bucket有关系，需要将旧有的bucket数据重新分开。并且还会更新相关属性

new_bucket = hctl->max_bucket + 1;
// 更新最大bucket索引
hctl->max_bucket+

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

PGCCC-PostgeSQL培训认证

关注关注

16
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【0289】Postgres内核之哈希表（Hash Tables）

Postgres 数据库内核开发工程师

07-02

606

如果您要查找的项目恰好在列表的前面，则检索是一个 O(1) 操作，因为您只向下遍历了一个节点。如果该项目位于列表的末尾，则检索它将是 O(n) 操作，其中 n 是列表中节点的总数。这使得数据管理对于用户来说更易于管理，因为按属性对数据条目进行分类比按它们在一个巨大的列表中的数量更容易。然而，在哈希表中，元素（又名桶）可以扩展或收缩以容纳几乎无限数量的表条目。总而言之，随着数组中元素数量的增加，通过索引访问元素的运行时间保持不变。使用链表，访问特定元素所需的时间会随着元素的数量线性增加。

如何在PostgreSQL中实现基于哈希的分区表以及其优势是什么

发现生活，分享智慧，一起成长！

04-23

764

PostgreSQL是一个功能强大的开源关系型数据库管理系统，它支持多种分区策略，包括基于范围的分区、基于列表的分区以及基于哈希的分区。在PostgreSQL中，基于哈希的分区表通常用于将数据均匀地分布到多个分区中，以便实现更好的负载均衡和查询性能。在基于哈希的分区中，你可以创建任意数量的分区，并且PostgreSQL会根据哈希函数自动将数据分布到这些分区中。现在，你可以向主表中插入数据，PostgreSQL将自动根据哈希函数将数据分布到相应的分区中。分区键是用于确定数据应存储在哪个分区中的列。

参与评论您还未登录，请先登录后发表或查看评论

PostgreSQL源码分析: 动态Hash

11-25

1561

1. 为什么需要动态hash 平常的hash，大多是下面这样一副面孔: 图1 一个静态hash结构这种Hash维护着一些桶，就是图上左边的部分，每一个桶中装着hash值相同的数据。这些具有相同hash值的数据形成一个链表。这种hash的一个最主要缺点就是桶的数目是一定的，不易扩展，随着插入数据增多，查找效率会急剧下降。动态hash就是用来

PostgreSQL Buffer Manager与hash算法

Focus on PostgreSQL

08-02

3234

1、概述为了加速数据库对数据的访问，我们需要通过buffer cache来将磁盘的数据块缓存，那么在PostgreSQL中是如何对buffer进行管理的呢？说的直接点，我要在buffer中访问某个page，数据库怎么去判断buffer中是否存在呢，如果存在又是怎么定位到这个page呢？很简单，通过hash算法。在数据库中似乎hash算法随处可见，hash索引、hash连接等等。之所以使用hash算法，自然是因为其速度快、效率高了。在PostgreSQL几乎内存管理中所用的都是hash算法。在介绍Pos

postgreSQL源码分析——索引的建立与使用——Hash索引(1)

m0_53446118的博客

11-28

1518

postgreSQL的Hash索引

PostgreSQL中的HASH分区：原理、实现与最佳实践

neweastsun的专栏

07-07

1374

PostgreSQL的HASH分区一种数据分布技术，它通过哈希函数将表数据均匀分散到多个分区中。这种分区方式特别适合需要将数据均匀分布且没有明显自然分区键的场景。本文将深入介绍HASH分区的原理、实现方法、性能特点以及实际应用案例，帮助您在合适的场景中有效利用这一功能。

postgreSQL的哈希索引

qq_34276652的博客

08-07

386

Hash Table (Hash Map) 哈希表是根据key直接进行访问的数据结构（这一结构的实现通常采用数组），它通过把关键码值映射（这个映射函数叫做散列函数）到表中一个位置来访问记录，以加快查找的速度。 ahash table(hash map) is a data structure that implements an associative array abstract data type,a structure that can map keys to values. A has...

【PGCCC】从 PostgreSQL 表恢复已删除的数据 | 翻译

PGCCC的博客

09-30

1557

PostgreSQL 非常擅长保护您的数据安全，因此它不会自行消失。不幸的是，反之亦然——如果数据已被删除，它将无法恢复。在本文中，我们将探讨从 PostgreSQL 表中恢复已删除数据的选项。

6-PostgreSQL 哈希索引原理浅析.pdf

最新发布

08-07

动态哈希表技术将传统的线性一维排列的哈希表划分为不同的段，并在段下再分配小哈希表。这种策略极大地降低了数据膨胀时扩充哈希表的难度。在PostgreSQL中，哈希索引的工程实现实际上是理论的延伸。哈希索引的构建...

PostgreSQL中的索引——3（Hash）

Michaelia_hu的博客

02-22

3174

第一篇文章描述了PostgreSQL索引引擎，第二篇处理访问方法的接口，现在我们准备讨论具体类型的索引。让我们从Hash索引开始。 Hash 架构一般理论很多现代编程语言将哈希表作为基本数据类型。从外观上看，哈希表看着像一个常规数组，它使用任何数据类型（例如字符串）而不是整数进行索引。在PostgreSQL中,哈希索引的结构与此类似。它是怎么工作的呢？通常情况下，数据类型的允许值范围非常大：在“text”类型的列中，我们可能会看到多少不同的字符串？同时，在某个表的文本列中实际存储了多少不同.

PostgreSQL索引篇 | Hash索引

weixin_63800030的博客

03-10

2648

PostgreSQL版本为8.4.1 （本文为《PostgreSQL数据库内核分析》一书的总结笔记，需要电子版的可私信我）

PostgreSQL 传统 hash 分区方法和性能

weixin_33895016的博客

11-23

246

标签 PostgreSQL , hash , list, range , hashtext , 哈希函数 , 取模 , 传统分区方法 , trigger , rule , pg_pathman , 内置分区 , general 分区背景除了传统的基于trigger和rule的分区，PostgreSQL 10开始已经内置了分区功能（目前仅支持lis...

PostgreSQL数据库数据结构——操作动态哈希表

肥叔菌的博客

07-20

1167

hash_search函数在table中查找key，并执行操作。hash_search_with_hash_value函数输入的key已经计算过其哈希值。 action的值为：查找key（HASH_FIND）、查找key，如果没有就创建（HASH_ENTER）、查找key，如果没有就创建，如果out of memory返回NULL（HASH_ENTER_NULL）、查找key，如果有就移除（HASH_REMOVE）。 void *hash_search(HTAB *hashp, const void *ke

PostgreSQL 联结方式--hash联结

luojinbai的专栏

03-04

2327

hash联结，首先应用WHERE子句中的筛选标准来独立地读取要进行联结的两个表。基于表和索引的统计信息，被确定为返回最小行数的表被完全散列到内存中。这个散列表包含了原表的索引数据行，并被基于将联结键转化为散列值的随机函数载入到散列桶中。只要有足够的内存控件，这个散列值将一直存放在内存中。然而，如果没有足够的内存，散列表将会被写入到临时磁盘空间。下一步就是读取另一张较大的表并对联结键应用散列函数

postgresql数据库数据结构——创建动态哈希表

肥叔菌的博客

07-15

1654

hash_create 创建动态哈希表hash_create函数，形参tabname用于传入表名，nelem用于传入元素(elemets)的最大数量，info传入额外表参数结构体指针，flags用于传入用于指示从Info取哪些参数的掩码。以InitShmemIndex函数为例， ...

Postgresql hash索引介绍

魂醉的一亩二分地

10-25

2895

hash索引的结构当数据插入索引时，我们会为这个索引键通过哈希函数计算一个值。 PostgreSQL中的哈希函数始终返回“整数”类型，范围为2^32≈40亿。bucket桶的数量最初为2个，然后动态增加以适应数据大小。可以使用位算法从哈希码计算出桶编号。这个bucket将存放TID。由于可以将与不同索引键匹配的TID放入同一bucket桶中。而且除了TID之外，还可以将键的源值存储在bucke...

PostgreSQL数据库数据结构——动态哈希表实现

肥叔菌的博客

07-20

1995

结构图 hash 表包含了多个 segment 切片，每个 segment 包含了相同数量的 bucket。里面的 bucket 使用链表存储着 hash 值相同的元素。当查找指定的 key 时，首先计算出它的哈希值，然后根据后面的几位数，计算出对应的 bucket 位置。之后遍历 bucket 的元素链表，查看是否有 key 元素。当增加元素时，同样先找到对应 bucket 位置，然后查看是否存在对应的链表中。如果不存在，直接添加到尾部。如果存在则可以覆盖或者报错。当删除元素时，同样先找到对应 b

PostgreSQL计算integer类型的has值

kmblack1的专栏

01-14

1693

1 出现的问题从PostgreSQL10以后PostgreSQL自带分区,但使用分区有利有弊,例如以下比较常规的需求. /**************************************************************************************** 传感器类型 drop table if exists sentypes; *******************************************************************

pg中的数据结构一：可扩展哈希表一

mydownloador的博客

12-30

1233

二叉树搜索具有对数时间的表现有个假设：输入数据具有相当的随机性。现在我们看哈希表，这种数据结构，其在插入、删除、查询操作上也具有常数评价时间的表现，而且这种表现以统计为基础，不依赖数据的随机性。我们先看看pg 里的哈希函数，再看pg 里动态哈希表“dynmaic hashtable ” （我认为用 “可扩展哈希表” 更能体现“dynmaic h...

PostgreSQL动态分页与表结构脚本

在PostgreSQL中，可以使用分区表实现类似功能。例如，基于`create_time`字段对`policy_alert_log_t`表进行时间范围分区，可以创建一系列子表，每个子表对应一段时间段。当插入新数据时，根据`create_time`自动选择...