gbase里的分布表与复制表

本文介绍了数据库中的分布表和复制表的设计原则与应用场景,包括如何选择合适的分布策略以提高查询效率,以及何时使用复制表来优化小表或多表连接查询。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景:数据库使用过程中,一个合适类型的表,会提高sql执行的效率,也可以合理利用服务器空间。

一.分布表

分布表可以使数据按指定的策略分布存储在不同的主机上,从而实现分布式数据存储和分布式计算,解决大数据存储容量扩展和计算性能扩展的问题。

分布策略:采用hash分布、random分布策略存储数据

默认创建的表是随机分布表,每个节点上只保留部分表数据。

随机分布表如下:

CREATE TABLE table1(a int , b varchar(10));
hash分布表如下:
CREATE TABLE student
(no varchar(10),
name varchar(200),    
sex int)

DISTRIBUTED BY('no');

选取distributed by列字段的原则

    1.在多表JOIN查询时,表中某列经常用于JOIN等值关联;
    2.表中该列通常是等值查询的列,并且使用的频率很高;
    3.选取表中重复值较少的列,尽量让数据均匀分布。

    4.选择count(distinct)值大的列做Hash分布列

注意:被选为distributed by列字段,有如下限制说明

    1.distributed by当前只支持varchar、int两种数据类型。
    2.distributed by列的值,不允许进行更新操作(update)。

    3.distributed by列不允许设置 default 值。

建议:除复制表外,其他表都要建成HASH分布表

          HASH列的要求:空字符不能过多、字段值不能重复太多、尽量选用作为查询条件较多的字段。

二.复制表

复制表将会存在于各个节点上,即表的名字和数据完全一致。需要使用REPLICATED关键字来创建复制表。一般来说,小表比如配置表、字典表等数据量小(10w以下)可以被创建成复制表。一些表频繁参不JOIN查询表也可以被创建成复制表。
如:

CREATE TABLE table1( “COL”  TYPE ) 

ENGINE=EXPRESS REPLICATED  DEFAULT CHARSET=utf8 

注意事项:

拷贝表,目标表默认为随机分布表,该方式建立的table1没有hash分布列,即使table22有hash分布列

create table table1 as select * from table22;

拷贝表,目标表为任意类型可在表名后指定类型

create table table1 distributed by ('fx') as select * from table22 limit 0;

create table table1 replicated as select * from table22 limit 0;

拷贝表,目标表类型与源表一致

create table table1 like table22

个人观点,欢迎指正。


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值