目录
进入正文之前,欢迎订阅专题、对博文点赞、评论、收藏,关注IT贫道,获取高质量博客内容!
一、Random Distribution
如果 OLAP 表没有更新类型的字段,将表的数据分桶模式设置为 RANDOM,则可以避免严重的数据倾斜(数据在导入表对应的分区的时候,单次导入作业每个 batch 的数据将随机选择一个tablet进行写入),分桶模式设置为RANDOM只需要建表是设置如下:
...
DISTRIBUTED BY RANDOM BUCKETS 1
...
也可以不跟“BUCKETS 1”直接指定RANDOM,默认BUCKETS为10。使用RANDOM分桶模式建表如下:
CREATE TABLE IF NOT EXISTS example_db.example_list_tbl3
(
`id` LARGEINT NOT NULL COMMENT "用户id",
`date` DATE

本文介绍了Apache Doris中的Random Distribution模式,适用于避免数据倾斜,适合整体聚合查询而非高并发点查询。同时,文章探讨了复合分区的使用场景,如时间维度分区、历史数据删除和解决数据倾斜问题,强调了分区粒度和分桶数的重要性。
订阅专栏 解锁全文
1947

被折叠的 条评论
为什么被折叠?



