带你认识PostgreSQL检索神器——Brin Index

最新推荐文章于 2024-06-18 17:56:45 发布

原创

最新推荐文章于 2024-06-18 17:56:45 发布 · 728 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #分布式 #postgresql #索引

本文详细介绍了PostgreSQL中的Brin Index，一种用于大数据表快速扫描的索引类型。Brin索引通过记录数据块范围的统计信息，减少无效页面扫描，提高查询效率。在性能对比中，Brin索引在索引大小和查询速度上优于Heap表的顺序扫描，尽管精度可能低于Btree索引，但仍然展现了其在处理大规模数据时的价值。

了解更多Greenplum技术干货，欢迎访问Greenplum中文社区网站

引言

Greenplum是一款强大而稳定的企业级分布式数据库。虽然基于 PostgreSQL，但Greenplum针对大数据的场景和用户对性能的极致追求开发了大量的特性和做了极致甚至苛刻的优化。此外，Greenplum紧密拥抱Postgres社区，以敏捷的方式快速升级Postgres内核。在Postgres 9.5的内核中，Postgres引入了一种全新的索引类型，名为Brin Index，本文将详细介绍Brin Index的内部实现以及性能表现。

01 什么是Brin Index

Brin全称Block Range Indexes，顾名思义即数据块范围的索引，它的设计初衷是为了解决当数据表极其庞大时的迅速扫描问题。

众所周知，Heap表以页面为单位进行组织，所以表的扫描也是以页面为单位。Brin索引的基本思想就是在索引中记录一组连续页面中字段值的大致统计信息，例如连续页面里某字段的最大值和最小值，页面扫描的时候根据Brin统计信息和查询条件直接跳过明显不符合查询条件的页面，从而达到快速扫描的效果。

在实际的查询计划中，位图扫描基于Brin索引完成整个扫描过程，如下所示：

gpadmin=# explain select * from t1 where c1 > 10 and c1 < 100;
-----------QUERY PLAN--------------
Gather Motion 3:1  (slice1; segments: 3)  (cost=400.00..404.04 rows=1 width=64)
  ->  Bitmap Heap Scan on t1