kudu内部机制

最新推荐文章于 2025-12-02 21:07:02 发布

原创

最新推荐文章于 2025-12-02 21:07:02 发布 · 6.8k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#kudu #table #sql

本文深入解析Kudu的内部机制，包括作为表存储引擎的特点，数据的分布式存储通过水平分区和Raft协议实现一致性，以及Kudu的主键、索引、Scan操作、数据存储结构（memrowset、diskrowset）和 compaction 过程。此外，还介绍了Kudu的Master节点如何管理元数据和集群协调。

1. kudu:面向结构化数据的开源的table存储引擎，支持低延迟的随机存取以及高效的分析处理

2. kudu的内部实现原理如图所示：

3. kudu通过水平分区来实现数据的分布式存储，存储以每个partition即tablet为单位，并基于raft协议解决多个partition副本的一致性问题

4. kudu表会指定其所有column的一个有序子集为primary key，作为在update和delete时的索引并用于分区，具有唯一性，并不能通过alter来drop这些primary key

5. kudu目前不支持除primary key以外的二级索引和唯一性限制

6. kudu使用scan算子来查询table中的数据，scan使用projection来选择columns并支持两种类型的谓词来filter，一个是column与常量的对比，另一个是primary key的范围

7. kudu提供了API用于将数据存放在指定的tablet server上面

8. kudu集群包含一个master节点和多个tablet server节点，分别存储元数据和实际的数据

9. kudu对table进行横向分区，单个row将会基于其primary key分到特定的分区中，每个分区称为一个tablet，因此，单个insert或者update操作只会影响单个tablet

10. 在创建kudu表时必须指定分区模式，分区的原理：根据指定的分区模式计算出primary key对应的binary partition k

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

forever_shine

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Kudu元数据分析

杨鑫newlife的专栏

09-12

1981

获取Kudu元数据信息，目前直接查询Kudu表即可原因如下：（官网文档） Catalog Table The catalog table is the central location for metadata of Kudu. It stores information about tables and tablets. The catalog table may not be r...

Kudu用法详尽剖析

数据与算法架构提升之路专栏

07-15

4321

HDFS 与HBase的数据存储的缺点目前数据存储有了HDFS与HBase，为什么还要额弄一个kudu呢？HDFS: 使用列式存储格式Apache Parquet , Apache ORC，适合离线分析，不支持单条记录级别的update操作，随机读写能力差HBase：可以进行高效读写，却并不是适合基于SQL的数据分析方向，大批量数据获取的性能差。kudu: 正因为HDFS与HBase有上面这些缺点，kudu较好的解决了HDFS与HBase的这些特点，它不及HDFS批处理快，也不及HBase随机读写能

3 条评论您还未登录，请先登录后发表或查看评论

3 条评论

boat824109722 2018.05.04
请教一下，应该预设多少分区？也就是tablet应该预设多大？
- OtherShoreFlower回复boat824109722 2020.12.04
  64M
- forever_shine回复boat824109722 2018.06.29
  分区大小根据预估的table数据量来设置，论文中给出的经验值是每个tablet最大不超过几十G