Apache Doris 全新分区策略 Auto Partition 应用场景与功能详解｜ Deep Dive系列

最新推荐文章于 2025-10-21 16:54:36 发布

原创

最新推荐文章于 2025-10-21 16:54:36 发布 · 2.3k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#apache #数据库 #数据仓库 #数据分析 #分布式

编辑：SelectDB 技术团队

在当今数据驱动的时代，如何高效、有序地管理数据库中的海量数据成为挑战。为了处理庞大的数据集，分布式数据库引入了类似分区和分桶策略，通过将数据按特定规则划分成较小的单位并分布到不同节点上，利用并行计算能力以提升处理和分析性能，并加强了数据管理的灵活性。

在 Apache Doris 中，数据划分包含分区和分桶两个层级。分区一般按照时间或其他连续值对数据进行划分，在查询时，通过分区裁剪过滤不必要的范围扫描，提升执行效率，同时极大地方便了对分区数据的增删改等管理操作；分桶则是基于某个或某些列的哈希值将数据分配到不同的桶中，从而有效定位数据、避免数据倾斜。

在 2.1 版本以前，Apache Doris 的分区主要依赖手动分区和动态分区功能（Dynamic Partition）自动创建两种方式：

手动创建分区：需要在建表时指定该表包含的分区，或者在使用过程中通过 DDL 语句修改。
动态分区：主要支持按照时间维度分区，以建表时的现实时间为标准来维护一个范围内的分区。

这两种方式都有其不够灵活之处，因此我们在 2.1 版本引入了自动分区（Auto Partition）来拓展分区功能。自动分区同时支持按时间维度的 Range 分区，和支持多种数据类型的 List 分区，按照导入数据的实际分布创建分区，提供了更为灵活的分区创建手段，相比于动态分区，保证流程自动化的前提下极大提升了分区使用的自由度。

分区策略演进

面对数据分布的设计维度时，我们往往更关注分区的规划，因为分区列和分区间隔的选择与实际的数据分布模式强相关，合理的分区设计能够大幅提升表的查询和存储效率。

在 Doris 中，数据表（Table）按照分区（Partition）和分桶（Bucket）两种方式依次划分，最终同一个分桶中的数据形成数据分片（Tablet，可视作 Bucket）。Tablet 是 Doris 中多副本高可用、集群间数据调度与均衡的最小物理存储单位。图示如下：

分区策略演进.png

01 手动创建分区

最常见也最基本的创建方式是手动创建，Doris 支持 Range 和 List 两种分区创建方式。对于日志、交易记录等基础业务场景，数据的时间维度较为明确，我们一般按照时间维度创建 Range 分区，建表语句示例如下：

-- Range Partition
CREATE TABLE IF NOT EXISTS example_range_tbl
(
    `user_id` LARGEINT NOT NULL COMMENT "用户id",
    `date` DATE NOT NULL COMMENT "数据灌入日期时间",
    `timestamp` DATETIME NOT NULL COMMENT "数据灌入的时间戳",
    `city` VARCHAR(20) COMMENT "用户所在城市",
    `age` SMALLINT COMMENT "用户年龄",
    `sex` TINYINT COMMENT "用户性别",
    `last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "用户最后一次访问时间",
    `cost` BIGINT SUM DEFAULT "0" COMMENT "用户总消费",
    `max_dwell_time` INT MAX DEFAULT "0" COMMENT "用户最大停留时间",
    `min_dwell_time` INT MIN DEFAULT "99999" COMMENT "用户最小停留时间"
)
ENGINE=OLAP
AGGREGATE KEY(`user_id`, `date`, `timestamp`, `city`, `age`, `sex`)
PARTITION BY RANGE(`date`)
(
    PARTITION `p201701