Apache Kudu
Apache Kudu 是由 Cloudera 开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。它是一个融合 HDFS 和 HBase 的功能的新组件,具备介于两者之间的新存储组件。
Kudu 支持水平扩展,并且与 Cloudera Impala 和 Apache Spark 等当前流行的大数据查询和分析工具结合紧密。
Kudu 应用场景
-
适用于那些既有随机访问,也有批量数据扫描的复合场景
-
高计算量的场景
-
使用了高性能的存储设备,包括使用更多的内存
-
支持数据更新,避免数据反复迁移
-
支持跨地域的实时数据备份和查询
-
国内使用的 kudu 一些案例可以查看《构建近实时分析系统.pdf》文档。
Kudu 架构
与 HDFS 和 HBase 相似, Kudu 使用单个的 Master 节点,用来管理集群的元数据,并且使用任意数量的 Tablet Server(类似 HBase 中的 RegionServer 角 色)节点用来存储实际数据。可以部署多个 Master 节点来提高容错性。



Apache Kudu是Cloudera开源的一种存储引擎,提供低延迟的随机读写和高效分析能力。Kudu适合需要随机访问和批量扫描的场景,支持水平扩展,并能与Impala和Spark等工具紧密集成。Kudu架构包含Master节点管理元数据,Tablet Server存储数据,Tablet是数据的分区单位,具备多副本以保证容错。Kudu的写入流程通过主键判断避免重复,读取流程则结合base data和delta stores获取最新数据。
最低0.47元/天 解锁文章
&spm=1001.2101.3001.5002&articleId=100880907&d=1&t=3&u=3d6f3f7d64fa4fba923999e111e271d1)
400

被折叠的 条评论
为什么被折叠?



