StarRocks数据模型之主键模型（当前版本v3.1）

最新推荐文章于 2025-09-10 23:27:33 发布

原创

最新推荐文章于 2025-09-10 23:27:33 发布 · 2.4k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#数据库

本文详细介绍了StarRocks中的主键模型PrimaryKeytable，包括其设计、适用场景（如实时更新和多流Join）、原理（Delete+Insert策略）以及使用说明，特别关注了索引管理和优化技巧。

StarRocks表设计数据模型，有四种：分别是明细模型（Dumplicate Key table），聚合模型（Aggregate table），更新模型（Unique Key table），主键模型（Primary Key table）。这篇文章主要从总览、适用场景、原理、使用说明等几个方面对主键模型（Primary Key table）进行阐述，在官网基础上进行了适量的拓展。

总览

主键模型（Primary Key table），支持分别定义主键和排序列，主键必须指定，但是排序键可选，当指定了排序键时，根据排序键构建前缀索引；如果没有指定排序键，则根据主键构建前缀索引。数据导入主键模型的表中，按照排序键先后存储。主键模型采用Merge-On-Write方式进行数据写入，当数据写入表中时，通过主键查询到对应数据，没查到的直接通过Append方式写入，查到则按照Delete + Insert 方式将数据写入表中，故而在查询时不需要进行聚合，并且支持谓词和索引下推，适用于读多写少的场景。其次，支持索引/主键持久化到磁盘以及数据的冷热存储（即最近几天的热数据才经常被修改，老的冷数据很少被修改，除了整体数据外，主键也适用，例如老的数据持久化到磁盘中），减少内存开销。

适用场景

主键模型（Primary Key table）适用于实时和频繁更新的场景，如实时对接TP数据库至StarRocks，当然也可以使用更新模型，但是更新模型采用Update方式写入数据，是通过Merge-On-Read读取数据，在读多写少的场景中，使用主键模型，查询性能会更高；还有类似利用部分列更新轻松实现多流Join，在用户画像等分析场景中，一般会通过宽表方式提升多维分析性能，但是数据来源往往是多个业务或系统，主键模型通过更新部分列而不是整行数据，性能得到提升。

原理

主键模型是由StarRocks全新设计开发的存储引擎。主键模型采用了 Delete+Insert 的策略，保证同一个主键下仅存在一条记录，这样就完全避免了 Merge 操作。具体实现方式如下：StarRocks 收到对某记录的更