大数据StarRocks(三) StarRocks数据表设计_starrocks单表存储数据多大(1)

最新推荐文章于 2025-06-21 15:05:38 发布

2401_84181731

最新推荐文章于 2025-06-21 15:05:38 发布

阅读量898

点赞数 27

CC 4.0 BY-SA版权

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.youkuaiyun.com/2401_84181731/article/details/138717690

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

由于数据是按照列进行存储的，所以查询某个列时只需要读取该列所在的块，而不是整行数据，从而大大提高了查询效率。

2.压缩效率高

由于列式存储的数据块中只有一个值的数据，所以可以使用更高效的压缩算法进行压缩，从而减少存储空间。

3.易于扩展

由于数据是按列存储的，所以可以很容易地添加或删除列，从而方便地扩展或缩减表的大小。

在StarRocks中，每个表都被分成多个块（block），每个块包含了一定数量的列数据。当执行查询时，StarRocks会根据查询条件定位到相应的块，并从这些块中读取所需的列数据，从而实现高效的查询。为了支持列式存储，StarRocks还提供了一些列式存储相关的功能，例如列式索引、列式聚合、列式过滤等，这些功能可以进一步提高查询效率和数据压缩效率。

StarRocks的表和关系型数据库类似, 由行和列构成. 每行数据对应用户一条记录, 每列数据有相同数据类型. 所有数据行的列数相同, 可以动态增删列. StarRocks中, 一张表的列可以分为维度列(也成为key列)和指标列(value列), 维度列用于分组和排序, 指标列可通过聚合函数SUM, COUNT, MIN, MAX, REPLACE, HLL_UNION, BITMAP_UNION等累加起来. 因此, StarRocks的表也可以认为是多维的key到多维指标的映射.
在StarRocks中, 表中数据按列存储, 物理上, 一列数据会经过分块编码压缩等操作, 然后持久化于非易失设备, 但在逻辑上, 一列数据可以看成由相同类型的元素构成的数组. 一行数据的所有列在各自的列数组中保持对齐, 即拥有相同的数组下标, 该下标称之为序号或者行号. 该序号是隐式, 不需要存储的, 表中的所有行按照维度列, 做多重排序, 排序后的位置就是该行的行号.
查询时, 如果指定了维度列的等值条件或者范围条件, 并且这些条件中维度列可构成表维度列的前缀, 则可以利用数据的有序性, 使用range-scan快速锁定目标行. 例如: 对于表table1: (event_day, siteid, citycode, username)➜(pv); 当查询条件为event_day > 2020-09-18 and siteid = 2, 则可以使用范围查找; 如果指定条件为citycode = 4 and username in [“Andy”, “Boby”, “Christian”, “StarRocks”], 则无法使用范围查找.

2.稀疏索引

StarRocks 通过前缀索引 (Prefix Index) 和列级索引，能够快速找到目标行所在数据块的起始行号。
StarRocks 表设计原理如下图所示。
在这里插入图片描述

表中组织由三个部分组成：

（1）shortkey index表

表中数据每1024行,

最低0.47元/天解锁文章

200万优质内容无限畅学