yzs87-优快云博客

在开发的每个阶段，我们必须仔细评估每种协程实现的可用性、成熟度和固有权衡。然而，它们的采用需要精心的工程和周密的设计。考虑一个场景：查询持有写锁，将其指针存储在协程栈中，然后让出。只有在确认资源存活的情况下，恢复的协程才能继续使用它们。协程是一个古老的概念，但直到最近才在主流编程语言中普及并实现标准化。：如果协程在执行过程中被阻塞，整个工作线程将被阻塞，绑定到该线程的所有其他协程也无法继续执行。，晨章数据将数据库内核解耦，通过对不同数据库共有功能的抽象，以一种模块化的方式，建立标准化。

2025-11-28 22:59:52 20

原创二探PgSQL18的异步IO

至于放到提交队列的IO请求，则由pgaio_worker_choose_idle选择一个空闲的异步io worker进程，通过SetLatch该进程的latch通知对应io worker进程唤醒。将IO拆分成iovcnt个，并计算出读的起使偏移seekpos，然后调用下一步的函数进行填充。io_worker_control的idle_worker_mask可以认为是一个bitmap，标记workers[]已使用的所有槽，也就是将异步IO请求放到对应的槽位上（对应到异步IO worker进程）处理异步IO。

2025-10-10 22:36:56 342 1

原创初探PgSQL异步IO

stream->oldest_buffer_index处开始取内存数据页（前面已经发起了一个异步批量IO，已经讲数据页pin住了），ios[oldest_io_index].buffer_index == oldest_buffer_index时表示该页所处的批次IO还未完成，则等待IO完成。IO 接口，libaio仅支持直接 IO（O_DIRECT，绕过页缓存），不适合依赖页缓存的场景（如普通文件读写），且接口设计复杂，支持的 IO 操作类型有限（如。，如果相邻，则可以合并，积攒起来，继续检查下一页。

2025-10-03 23:06:25 473

原创还在等什么？赶紧使用协程来处理异步IO

比如某个线程在进行函数调用时，线程上的栈会记录这个函数的状态，比如参数、局部变量等，通过移动栈顶指针完成。的过程中，取到内表值，外表的连接字段建立了索引，那么就可以通过索引对这个值进行探测。对于在内存的块，协程同步处理里面的。尚未完成，当前协程会挂起（保存状态并让出线程控制权），但不会阻塞线程，该线程可以执行其他协程，它‌不会立即执行。时，也会移动栈顶指针，在线程栈分配空间，并将堆上分配的存储的协程状态拷贝到线程栈空间。协程对象执行该协程），如果该协程挂起了，就将该协程句柄保存起来，然后将当前状态。

2025-09-13 22:04:59 562

原创 CloudberryDB | 第5期 | 执行器算子ShareInputScan

同一个进程时消费者和生产者不会并发访问数据，此时消费者和生产者是同一个人。生产者将数据准备好后，作为消费者角色就可以从。的共享内存中进行通信，从而到磁盘临时文件中读取，继而完成数据的共享。1、ShareInputScan与ShareInputScanState。链表中，以便生产者准备好后可以唤醒该进程，然后就会返回。子查询的执行计划节点状态树，注意这个是最底层的。时，可以在同一个进程中进行共享，那么不同。链表取出等待的消费者的进程序号，然后通过。中取数据的，在优化器中会将消费这的。

2025-08-01 22:16:37 778

原创 CMU-15-721（2024.Fall系列）解读 | 架构感知的查询处理

段内偏移”，访问内存时访问的是真实的物理内存，而且段式访问针对的是连续的物理地址。在内存中存放着页表，里面有每个页的虚拟地址与物理地址的映射，当然需要进行一些算法的转换，这就比较麻烦。为解决这种问题，借助分页机制，将线性地址和物理地址解绑，让线性地址连续，物理地址可以不连续，如此就可以分别在。缓存，存储虚拟地址和物理地址的映射，无需复杂的算法直接得到对应的物理地址。注意数据驱动的方向，他和火山模型是相反的，从底层向上进行驱动，也就是。就放不下超出页的逻辑地址到物理地址的映射了，造成严重的。

2025-07-06 10:18:24 1055

原创 PgSQL内核特性 | Brin索引

加载对应页，进行顺序扫描，再次进行下条件判断。时，如果该表特别大，那么就需要顺序扫描表的所有数据然后进行过滤，或者扫描所有数据进行。当然这对于一定规则，比如有序或者较为有序的存储效果尤为明显，否则如果过滤的。中增加了最大值和最小值的统计信息，这样就方便进行过滤，提前将不满足条件的列存数据。范围内的最大值和最小值，判断条件的值是否在这个范围内，如果在则将该。页存储表数据页一个范围内的最大值最小值构成的元组。算子，该算子进行索引扫描，根据过滤条件，扫描。页的顺序，真是这样吗？页满需要扩展的时候，需要后面的。

2025-06-28 22:43:33 620

原创 PgSQL内核代码阅读|查询的两种实现方式

算子，他是内核内部扫描系统表的一种方式，他将过滤下推到了存储引擎层，在表访问方法处完成过滤，仅将满足条件的元组输出。进行过滤表达式计算，将不满足条件的值丢掉，继续拉取下一条元组；将满足条件的元组继续向上层算子推送，或者无父算子时，直接向客服端发送。条件的顺序扫描查询，他会从存储加载数据，然后一条一条的从页中读取数据，并将其返回给。对于系统表还有另一种查询方式，即使不经过索引，也可以通过。如上图所示，对于普通的顺序扫描，直接在存储引擎层也就是。中，从而在存储层就将值过滤掉，仅向。查询用户表时，针对带有。

2025-06-15 20:02:09 318

转载读论文看数据库发展：通信成为OLTP新瓶颈

系统通信，开销会变得更高，回到昂贵通信的原点。本文对这些隔离开销进行了很好的细分，并解释了为什么我们应该关心高性能。其余部分扩展了这一关键发现，并展示了存储过程隔离的开销。当存储过程在隔离的环境中执行时，如。，主要使用存储过程作为事务负载。与数据库的典型交互将涉及客户端调用预编译的。）探索具有复制和分布式事务的分布式数据库，他们可能具有更高的网络开销；）更好的内核旁路和数据库系统专用网络栈；事务性负载要花费更多事件处理事务。如上图所示，可以看到现代的。）网络的成本有多恐怖，或容器，并使用网络（如。

2025-06-02 22:39:21 103

原创 PgSQL的操作符、操作符类及操作符族

可以为一个数据类型的同一个索引定义多个操作符类，最常用的一个被标记为默认操作符类，作为整个类型在一个索引访问方法下的默认选择。对于一个具体的数据类型，如果要能够正常使用索引，除了需要有对应的比较操作符外，还需要操作符类等信息。一个操作符类必须属于一个操作符族，创建操作符类的时候如果没有指定则会默认创建一个同名的操作符族。的关系是：操作符类中的操作符对应表访问方法的具体策略，操作符的函数对应表访问方法的。创建索引时指定使用的操作符类，判断是否可以走索引时使用操作符所在的操作符类。算数操作符：加减乘除等；

2025-06-02 17:37:41 535

原创跟着论文学习图数据库 | ByteGraph

默认，对于同一个起点，采用边上的属性（时间戳）作为主键索引，也可以支持其他元素（终点、其他属性）来构建二级索引。，先找到我到他的一跳邻居，然后依次让一跳邻居找他的二跳邻居，看有多少人当中有他。另外一种方式：找到我的一跳邻居后，找他的一跳入住邻居，然后依次做一个。保存一个起点的所有边，局部性很好，但它的写放到会很大。跳领域的查询时，涉及到大量的随机读写，数据的局部性就没有了，性能退化很大。：基于一个属性值，能查到当前在整个图里面，具有特定属性的所有点的。实例会缓存最近查询的结果，同样的查询避免冗余处理。

2025-04-13 11:45:58 893

原创跟着论文学图数据库 | galaxybase

中部署了日志结构邻接表用于存储点和边数据，实现无索引邻接，从而方便图遍历和从磁盘上顺序读写。（日志结构邻接表），将点和表作为邻接表，并存储多版本数据，最后将数据批量写回磁盘；即使对原始数据不太了解，可以利用默认或者自定义算法分析图数据，为每个点插入何使的。邻接表的方式提升了批量数据读比如执行图遍历查询或者指定类型的所有点的性能；进行分布，并将对应边存储在一起（这里指的是放在同一个存储节点上）。分布在各个存储节点上，每个图的分片在单个存储节点上形成一个。）形式存储，数据有序组织，最坏情况下的读时间复杂度为。

2025-04-04 11:46:46 538

原创 CloudberryDB | 第4期 | 角色管理实现机制解读

判断角色是否存在，若不存在则提示报错推出，否则进行相应的权限判断执行者是否有权限更改该角色的属性；角色是拥有数据库对象和权限的实体，在不同环境中角色可以是一个用户、一个组或者两者都有，本节介绍角色的创建、修改、删除和权限授予与回收。而创建角色和组时，若没有角色属性参数设置，则。删除所有涉及删除角色的元组，当然还会删除该角色在。，那么被加入的成员角色还可以将其他角色加入父角色。链表的角色，检查该角色是否存在，若不存在则根据。，依次提取要修改的角色属性；也可以调整角色的成员关系，结构体中的。

2025-03-14 22:12:13 898

原创 CloudBerryDB | 第3期 | 词法解析与语法解析（2）

CloudberryDB |第3期| 词法解析与语法解析（2）本文接上文，介绍词法解析逻辑的流程。1、词法解析逻辑1）kwlist.h通过gen_keywordlist.pl脚本生成kwlist_d.h头文件，里面定义了ScanKeywords_kw_string[]、ScanKeywords_kw_offsets[]数组，并定义了ScanKeywords结构体。其中ScanKeywords_...

2025-03-01 22:48:40 651

原创 CloudBerryDB | 第3期 | 词法解析与语法解析（1）

CloudberryDB |第3期| 词法解析与语法解析（1）CloudberryDB基于PostgreSQL，这块原理和PG一样，都是利用flex和yacc进行词法解析和语法解析生成语法树，再经语义分析生成逻辑执行计划，以供优化器进行优化生成最终的物理执行计划。1、词法分析词法分析主要识别一个SQL中的关键字、标识符、操作符、常量和终结符，划分成多个不同的token。名字词性说明关键字key...

2025-02-23 22:20:12 934

原创 CloudBerryDB | 第2期 | 行列混合存储引擎

CloudBerryDB |第2期|行列混合存储引擎CloudBerryDB（Greenplum的接棒者）的行列混合存储引擎PAX多种encoding/compress算法、MVCC、XLOG以及VACUUM（目前正在做），也支持统计信息和稀疏过滤，另外还支持向量化执行器。当然它的向量化执行器目前还为开源，据hashdata老师讲，PAX计划明年Q1开源。这里的统计信息大致指一个block里...

2025-02-02 20:55:19 1028

原创第四章 WAL 4.1 WAL文件

postgres备份与恢复第四章节WAL

2025-01-31 21:02:23 315

原创 PostgreSQL图插件AGE

PostgreSQL图插件AGEApache AGE是PostgreSQL的一个图插件，作为Apache的一个顶级项目目前备受关注。AGE是A Graph Extension的缩写，支持openCypher语言，本文关注下它的基础架构。1、AGE中涉及的几个系统表AGE中涉及几个重要的系统表：1）ag_graph，用于存储所有的图schema，相当于每创建一个图都有一个图名字，这个系统表就存储所有...

2025-01-25 13:01:44 927 2

原创数据库执行引擎性能黑科技

数据库执行引擎性能黑科技现在业界OLAP数据库中，包括商业数据库和开源数据库，都在执行引擎这块做了很多黑科技，使得执行性能大大提高。比如向量化执行引擎、push-based pipeline执行引擎、JIT和向量化结合等等，本文我们不关注整体的实现以及NVM、GPU、FPGA等新硬件方面的提速，而关注具体性能黑科技的细节。1、clickhouse中向量化执行引擎中使用的手段1）大量使用instri...

2025-01-01 17:05:03 726

转载阵容发布&议程官宣！第七届中国PostgreSQL数据库生态大会开票倒计时！

会议信息时间：2025年1月4日地点：上海·南京路·上海国际饭店9楼国际厅形式：现场参会，无线上直播嘉宾阵容详细议程免费注册会议下方扫码常见问题&参会指南01 为何没有直播？我们认为，现场交流的独特价值无法通过线上形式替代。因此，在筹备过程中，我们将重点放在优化现场体验上，确保与会者能参与4个专题研讨会，并与其他专业人士建立宝贵的联系。02 报名...

2024-12-31 20:03:07 171

原创 GPDB EXPLAIN ANALYZ比直接执行SQL慢？

自从GPDB闭源后，HashData接手举起了GPDB开源的大旗，由GPDB衍生而来的CloudberryDB于近期加入了Apache软件基金会孵化器，给GPDB开源社区带来了热度和活力。昨天在CC群里看到GPDB中EXPLAIN ANALYZ比直接执行SQL慢的讨论。一般情况下，EXPLAIN ANALYZE由于不会向客户端输出元组，没有网络传输代价和IO转换代价（除非指定了SERIALIZE）...

2024-12-01 21:46:06 790

原创 PgSQL即时编译JIT | 第1期 | JIT初识

PgSQL即时编译JIT | 第1期 | JIT初识JIT是Just-In-Time的缩写，也就是说程序在执行的时候生成可以执行的代码，然后执行它。在介绍JIT之前，需要说下两种执行方式：解释执行和编译执行。其中解释执行是通过解释器，将代码逐条翻译成机器码；而编译执行是提前翻译成机器码。编译执行又分为动态编译和静态编译，其中动态编译指在运行时进行编译，与之相对的就是静态编译。JIT编译就是动态编译...

2024-11-17 18:34:12 1024

原创向量数据库|第2期|pgvectorscale

向量数据库|第2期|pgvectorscale大家都听说过pgvector，一个PostgreSQL存储和查询向量的扩展，是PG AI生态当之无愧的最受推崇的工具之一。pgvector向PG中添加了vector类型，以及各种搜索操作符和索引，使其拥有vectors和metadata的完整数据库能力。但他的HNSW索引有两个问题：1）需要将整个索引都放到内存，否则会变慢。索引成为整个应用的唯一瓶颈2...

2024-11-01 22:47:31 970 1

原创向量数据库|第1期|从零开始学习

从零开始学习向量数据库，一些基本概念以及索引

2024-10-04 16:54:03 1510

原创 GPDB HashAgg算法 | 第3期 | 版本6的spill溢出磁盘解秘

GPDB HashAgg算法 | 第3期 | 版本6的spill溢出磁盘解秘上期我们介绍了版本12的spill场景下hashagg如何进行操作，本期接着介绍下GPDB版本6是怎么操作的，它是否和版本12的原理一样？当然不一样，和版本12将不在当前hash表分组的元组溢出到磁盘不同，它是将当前hash表溢出到磁盘，然后再将元组插入到腾出空间的hash表中。1、hash表的管理Hash表的结构为Has...

2024-09-08 09:48:28 1253

原创 PgSQL基础知识 | 第1期 | 聚合计算

PgSQL基础知识 | 第1期 | 聚合计算本期开始陆续学习PgSQL基础知识，本节全面介绍PgSQL中的聚合操作，尤其是PgSQL的聚合支持各种高级功能，比如filter、order by、distinct等功能。1、语法aggregate_name (expression [ , ... ] [ order_by_clause ] ) [ FILTER ( WHERE filter_claus...

2024-09-01 07:28:07 703

原创 PgSQL HashAgg算法 | 第2期 | 版本12的spill溢出磁盘解秘

PgSQL HashAgg算法 | 第2期 | 版本12的spill溢出磁盘解秘HashAgg需要在内存中构建Hash表，以此来构建聚合分组；但是当数据量大到内存放不下时，就需要spill溢出到磁盘；构建好当前hash表并输出分组值后，再将磁盘上的spill文件中数据加载重新构建hash表并构建聚合分组。PgSQL在演进过程中，有两种spill磁盘方式，本期介绍如何spill并根据磁盘临时文件构建...

2024-08-18 21:50:37 1180

原创 CloudberryDB | 第1期 | 向量化引擎解读

CloudberryDB | 第1期 | 向量化引擎解读GreenPlum闭源带来了挑战，CloudberryDB接棒GreenPlum继续前行。CloudberryDB向量化引擎有开源计划，8月3号社区首期线下沙龙对向量化引擎从4个方面进行了介绍：首先是OLAP性能优化点有哪些：编译执行、向量化执行和并行。1）其中编译执行：将复杂运算在执行前编译成一个函数，优点有：分支预测代价低，执行速度快（因...

2024-08-11 13:49:56 535

原创 DuckDB核心模块揭秘 | 第1期 | 向量化执行引擎之Pipeline

DuckDB核心模块揭秘 | 第1期 | 向量化执行引擎之PipelineDuckDB是一款非常火的OLAP嵌入式数据库，性能超级棒。它分为多个组件：解析器、逻辑规划器、优化器、物理规划器、执行器以及事务和存储管理层。其中解析器原语PgSQL的解析器；逻辑规划器包含binder、plan generator，前者解析所有引用的schema中的对象的表达式，将其与列名和类型匹配，后者将binder生...

2024-07-27 23:02:33 1691

原创 PgSQL内核算法 | Hash Agg数据溢出写盘机制解析

PgSQL内核算法 | Hash Agg数据溢出写盘机制解析PgSQL进行Hash分组聚合时，针对数据的hash key（分组键）进行hash得到hash桶，同一个分组数据在同一桶上（为简化说明排除hash冲突场景）。当数据量比较大且比较分散造成分组数比较多时，构建的hash表在内存中放不下，就会将后续的不在当前分组中的数据写到磁盘临时文件。本文解析下写临时文件聚合的原理。1、Hash聚合流程1）...

2024-07-14 22:31:56 1067

原创 openGauss - 向量化执行引擎算子HashAgg解读

openGauss - 向量化执行引擎算子HashAgg解读对于分组聚合来说，可以通过排序将待排序值按照大小排列起来，相同的值就紧密连在一起，然后依次遍历，遇到不相同的值就得到一个分组。另一种方式是通过Hash来完成，将所有值都构建到hash表中，同一个桶的值即为一个分组（hash冲突的场景忽略）。openGauss的向量化执行引擎如何通过Hash来实现聚合？1、HashAggRunner类Has...

2024-07-07 15:17:53 682

原创 CloudberryDB什么条件下使用Runtime Filter

CloudberryDB什么条件下使用Runtime Filter前文讲述了CloudberryDB的Runtime Filter两种实现方法。Hash Join时，将内表的值构建hash表的同时将其再构建到布隆过滤器中，然后将该过滤器传递给左子树的RuntimeFilter算子或者下沉到SeqScan算子，但是布隆过滤器的生成、传输及检查会引入额外开销，若不加节制滥用，则可能导致性能下降。Clo...

2024-06-30 15:23:54 286

原创国产数据库 - 内核特性 - CloudberryDB中的Runtime Filter

国产数据库 - 内核特性 - CloudberryDB中的Runtime Filter今年5月份GreenPlum官方将GitHub仓库代码全部删除，各个分支的issues和bugs讨论等信息全部清除，仅将master分支代码进行归档。对于国内应用GPDB的用户来说，这是一个挑战性事件，对与后期维护、升级等都变得非常困难。有幸HashData开源了基于GP衍生版本CloudberryDB版本，对国...

2024-06-23 21:33:45 545

转载 PostgreSQL使用Linux cgroup2控制资源消耗

PostgreSQL使用Linux cgroup2控制资源消耗多租户和共host是一个挑战性问题。运行多个PG实例可以帮助减少内部竞争点（可伸缩性问题）。然而，一个租户的load可能会影响其他tenets，即所谓的“Noisy Neighbor”效应。幸运的是Linux允许用户通过每个程序使用cgroups来控制资源消耗。Cgroup2替代了cgroup1，处理了版本1几乎所有的限制。Linux的...

2024-06-10 16:24:09 209

原创 PgSQL技术内幕 - psql与服务端连接与交互机制

PgSQL技术内幕 - 客户端psql与服务端连接与交互机制简单来说，PgSQL的psql客户端向服务端发起连接请求，服务端接收到请求后，fork出一个子进程，之后由该子进程和客户端进行交互，处理客户端的SQL等，并将结果返回给客户端。那么，他是如何做到客户端和服务端子进程进行交互呢？服务端怎么做到和多个客户端交互呢？1、客户端如何连接psql客户端连接及发送SQL命令过程如下图所示：1）通过pa...

2024-06-08 23:40:50 717

原创国产数据库 - 架构设计 - 初识Doris

国产数据库 - 架构设计 - 初识DorisDoris是一款基于MPP架构的分析型数据库。整体架构很简单，只有两类进程FE和BE。其中FE（Frontend）主要负责用户请求的接入、查询解析规划、元数据管理和节点管理相关工作；BE（Backend）主要负责数据存储、查询计划的执行。1、架构业界比较有名另一款的MPP分布式数据库GreenPlum，对照其来说，这里的FE和GPDB的Master相对应...

2024-05-29 22:48:44 1193

原创 PgSQL内核机制 - 算子执行统计元组个数

PgSQL内核机制 - 算子执行统计元组个数我们在执行explain analyze观察执行计划执行情况时，时常通过每个算子实际执行结果来分析SQL的执行，其中有一项“rows = XXX”表示执行的行数（这里姑且先认为是执行的真实行数）。但有些场景下，比如MergeJoin，如下：可以看到内表t1的SeqScan算子扫描出8行记录，而排序Sort算子仅4个，难道不是应该8个元组都进行排序吗？那我...

2024-05-25 22:58:31 537

原创 openGauss的BatchStore和Batchsortstate为什么仅ForwardScanDirection取数据

openGauss - 内核原理 - BatchStore和Batchsortstate为什么仅ForwardScanDirection取数据openGauss的普通执行引起从Tuplestorestate（物化）和Tuplesortstate（排序）取数据时，会有方向，即ForwardScanDirection：从前向后依次取；BackwardScanDirection：从后向前依次取。但是，在...

2024-05-19 22:13:31 995

原创第三章 crash recovery机制

PgSQL崩溃恢复机制

2024-05-12 21:02:20 340

空空如也

innodb插入意向锁如何使用