大数据数仓项目技术选型

技术选型主要考虑因素

数据量大小,业务需求,行业内经验,技术成熟度,开发维护成本,总成本预算。

数据采集传输:

  1. Flume:负责处理文件,读取文件
  2. Kafka:负责缓冲
  3. sqoop:从mysql直接导入数据

数据存储:

  1. MySql:负责存储可视化的展示数据
  2. HDFS:主要存储的是大数据中的数据,例hive
  3. HBase:存储元数据
  4. Redis:缓存

数据计算:

  1. Hive:基于MapReduce计算,速度相对较慢
  2. Tez:完全基于内存,相对hive快了很多
  3. Spark:速度是hive的100倍。可以进行多表查询
  4. Flink:可以进行多表查询

数据查询:

  1. Presto:基于内存快速查询
  2. Bruid:实时查询跟批处理的结合,但具有局限性只能处理单表
  3. Impala:基于内存快速查询
  4. Kylin:可以进行预计算,将计算的结果存到HBase中,可以进行多维度的查询

数据可视化:

  1. Echarts:免费但开发起来有一定难度,需要自己编写java代码,甚至有些图形需要自己绘画,对接相对麻烦
  2. Superset:免费简单但可选图像不多,只有简单的柱状图饼状图折线图
  3. QuickBI:收费
  4. BataV:收费

任务调度:

  1. Azkaban
  2. Oozie:配套cdh进行使用

集群监控:

 Zabbix

元数据管理:

 Atlas

数据质量监控:

Griffin
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值