了解更多Greenplum技术干货,欢迎访问Greenplum中文社区网站
Greenplum是一个大规模并行处理数据库,它由一个master和多个segment组成,其数据按照设定的分布策略分布于各个segment上。数据表的单个行会被分配到一个或多个segment上,但是有这么多的segment,它到底会被分到哪个或哪些segment上呢?分布策略会告诉我们。
分布策略
在Greenplum 5中,有2种分布策略:
- 哈希分布
- 随机分布
在Greenplum 6中,添加了另一个策略:
- 哈希分布
- 随机分布
- 复制分布
数据表的单个行会被分配到一个或多个segment上,但是有这么多的segment,它到底会被分到哪个或哪些segment上呢?分布策略会告诉我们。
哈希分布:
要使用这一策略,需要在创建表使用 “DISTRIBUTED BY(column,[...])” 子句。
散列算法使分布键将每一行分配给特定segment。相同值的键将始终散列到同一个segment。选择唯一的分布键(例如Primary Key)将确保较均匀的数据分布。哈希分布是表的默认分布策略。
如果创建表时未提供DISTRIBUTED子句,则将PRIMARY KEY(如果

本文介绍了Greenplum数据库的分布策略,包括哈希分布、随机分布和复制分布,强调了哈希分布的性能优势。同时,讨论了分区策略,包括范围分区和列表分区,以及默认分区的作用与潜在问题。正确选择和使用分布与分区策略对于优化查询性能和数据库维护至关重要。
最低0.47元/天 解锁文章
2801

被折叠的 条评论
为什么被折叠?



