Apache Kudu
Apache Kudu 是由 Cloudera 开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。它是一个融合 HDFS 和 HBase 的功能的新组件,具备介于两者之间的新存储组件。
Kudu 支持水平扩展,并且与 Cloudera Impala 和 Apache Spark 等当前流行的大数据查询和分析工具结合紧密。
Kudu 应用场景
-
适用于那些既有随机访问,也有批量数据扫描的复合场景
-
高计算量的场景
-
使用了高性能的存储设备,包括使用更多的内存
-
支持数据更新,避免数据反复迁移
-
支持跨地域的实时数据备份和查询
-
国内使用的 kudu 一些案例可以查看《构建近实时分析系统.pdf》文档。
Kudu 架构
与 HDFS 和 HBase 相似, Kudu 使用单个的 Master 节点,用来管理集群的元数据,并且使用任意数量的 Tablet Server(类似 HBase 中的 RegionServer 角 色)节点用来存储实际数据。可以部署多个 Master 节点来提高容错性。