文档说明
对于每日10TB+的数据增量,应该选择什么样的离线分析引擎,才能既高效,有低成本?
追求性能极限的同时,也需要兼顾向后扩展性,比如人才招聘,运维成本,部署成本,分析场景变化等,那么如何才能选择最适合自己的离线分析引擎呢?
本文从自身需求的视角出发,综合对比目前主流的开源离线分析方案,以寻找最合适的离线分析方案,来满足自己的需求。
对于目前较为主流的druid,clickhouse,kylin,KAWQ,presto,spark sql,impala进行了多方面的评比,仔细分析,以寻找最适合的离线分析方案。
评估目标
短期目标:
-
200万/s数据写入,成本相对较低;
-
具备即时查询的能力;
-
易于使用,降低开发门槛;
-
有容错能力,个别节点故障,不影响集群提供服务;
-
无特殊硬件要求,支持云部署,可分布式部署,支持弹性伸缩;