1.技术路线
oracle--kafka-kudu
2.各个组件优缺点
Hive:数据直接存放于hdfs中,适合离线分析,确不利于记录级别的随机读写。
Hbase:将数据存放再hbase中,适合记录级别的随机读写。对离线分析确不友好。
Kudu:是对 hdfs 和 hbase 功能上的补充,能提供快速的分析 和实时计算能力
Kudu 特性:
kudu 面向结构化存储 支撑单行事务
不允许用户数据的primary key重复
底层直接采用本地文件系统parquet 列式存储格式
设计既兼顾了分析型查询,又兼顾了随机读写的能力 primary key 的唯一性 限制了写入的时延性
突出优点就是:大表上亿条数据,查询速度快
缺点:写的性能比较慢
为了充分利用kudu 的优点 将接口表全部建成kudu 表 通过kafka的消费者直接将数据写入kudu表中。中间逻辑表采用 impala+h

本文介绍了技术路线从Oracle到Kafka-Kudu,并详细阐述了Kudu和Hive、Hbase的优缺点。Kudu以其快速分析和实时计算能力成为选择,尤其在大表查询速度上的优势。文章提到了通过Kafka消费者将数据直接写入Kudu表,并用Impala处理中间逻辑表。同时,提供了Impala和Kudu建表及查询的示例。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



