GreenPlum系列-6-表设计之存储类型、分布、分区的介绍

原创

已于 2023-06-02 10:28:35 修改 · 3.9k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#数据库

于 2023-01-09 15:00:42 首次发布

文章介绍了Greenplum数据库在创建表时的存储选择，包括堆存储与追加优化存储的适用场景，行存和列存的优缺点及选择依据，以及分布键的选择对性能的影响。此外，还讨论了压缩和分区在数据管理中的作用，以及如何根据业务需求进行合理的表设计。

在实际的生产中创建表之前需要对业务需求分析，包括使用堆存储还是追加优化存储、选择行存还是列存是否需要压缩、分布键的选择、分区的使用。

这章主要介绍以上内容。

一、堆存储（heap storage）和追加优化存储（append-optimized storage）

堆存储

默认存储类型，堆表存储在OLTP类型负载下表现最好，数据会在初始载入后被频繁的修改。适合较小的表，如维度表。

追加优化存储

在数据仓库环境中的非规范表表现最好。该类表通常被批量加载后只被只读查询访问。如事实表，同时追加优化表对批量数据加载性能有优化，不建议单行insert操作。追加优化表不支持cluster、declare... for update 和触发器。

堆表和追加表的选择

如果表在后续会有一定的并发的 insert/delete/update 需要选择堆表；

如果后续只是批量加载且少更新，可选择追加表。

创建

堆表： create table foo (a int, b text) DISTRIBUTED BY (a);

追加优化表： create table bar (a int, b text) with （appendoptimized=true） DISTRIBUTED BY (a);

二、列存和行存

列存

适用于在少量列参与计算，同时这些列一旦载入以后极少会更新。

行存

适用于具有很多迭代事务的OLTP类型以及一次需要多列的单行，检索性能高；

行存和列存的选择

表数据的更新，如果频繁装载和更新表数据，选择面向行的堆表；面向列的表只适合追加优化表。

频繁的插入，如果频繁的想表中插入行，选择面向行的模型；列存没有对写操作优化。

查询中要求的列数，如果查询列数或者条件自居中包含所有或大部分列，选择行存；列存适合查询单列汇总或单行过滤。

压缩，列数据具有相同的数据类型，很好的支持压缩。

创建

面向列

create table bar (a int, b text) with (appendoptimized=true, orientation=column) distributed by (a);

三、分布

为什么选择使用分布键

所有的join、sort、aggregation 都可以在本地segment 上完成，不需要motion动作在segment之间传递数据。当然这是理想状况，出于对性能的考虑，greenplum 系统所有的数据能够在segment 分布均匀，有利于后续的查询、聚合等操做，更好的利用MPP的并发特性。如果数据分布不均匀，出现数据倾斜，直接影响就是木桶效应，效率低下。默认情况下GP会指定随机分布。