StarRocks 存算分离 Compaction 原理

最新推荐文章于 2025-03-14 09:16:59 发布

kai_ding

最新推荐文章于 2025-03-14 09:16:59 发布

阅读量1.4k

点赞数 27

分类专栏： StarRocks 数据仓库大数据文章标签：大数据数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/kai_ding/article/details/141389025

版权

前言

StarRocks 中每次数据摄入都会生成一个新的数据版本，而查询时需要将所有版本数据进行合并才能获得一个正确的结果，如果历史数据版本太多，那么查询时需要读取的文件数也会很多，造成查询效率低下。因而 StarRocks 存在内部任务定期将历史数据版本进行整合，消除重复数据记录，我们称之为 Compaction。

Compaction 是为了将不同版本的数据文件进行整合，合并成大文件的动作，减少系统中小文件数量，进而提升查询效率。相比于存算一体表，StarRocks 存算分离实现了新的 Compaction 调度机制，表现为：

Compaction 调度由 FE 发起，BE执行。FE 按照 Partition 为单位来发起 Compaction 任务
Compaction 会生成一个新版本，也走导入的写数据、commit、publish version 这套完整流程

本文旨在描述 StarRocks 存算分离表 Compaction 基本实现原理，帮助开发和运维人员能更好地理解并根据实际需要调整 Compaction 相关配置，以在实践中取得更好地效果。

背景介绍

前面说过，每次导入都会在 FE 内生成一个新版本，而该版本被标记在 Partition 之上。一旦导入事务成功提交，便会更新 Partition 的可见数据版本号，Partition 的数据版本号单调递增。

需要注意的是，一个 Partition 内可能存在多个 Tablet，这些 Tablet 都共享相同的数据版本号，即使一次导入可能只涉及其中部分 Tablet，一旦导入事务成功提交，Partition 下所有的 Tablet 的版本都会相应地得到提升。

例如上图中，Partition X 内含 Tablet 1 ~ N，当前的可见版本为12，一旦产生新的导入事务 New Load Txn，且该事务成功提交，那么 Partition X 的可见版本就变成了 13。

基本框架

StarRo

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。