xx总部项目,节点数众多,数千,甲方要求版本也极其凶残,遂某公司大数据组件发行版需升级组件版本如下:
hadoop 3.1.2
hive 3.1.0
hbase 2.1.2
spark 2.3.0
一。hadoop版本
hadoop作为基础版本,虽然17年12月已经发布3.0.0 ga版本,但到目前未听闻大规模生产环境使用案例。(孤陋寡闻)
3.1.2版本为19年2月6日发布。
查了下3.2.x对应版本jira,critical以上问题不多。
二.hbase
到目前为止hbase 2.x版本官方还是依赖hadoop2.x, 认为hadoop3.x处于早期阶段,没有经过满足生产环境使用的充分测试。
而且hbase自身18年12月份才发布2.0.x版本,2.1.3更是今年情人节才发布,距现在不足一个月,这样的情况还要上生产,而且是数千节点的大集群,真可怕?♀️。
因为产品用到了phoenix,也查了下phoenix最新版本,最新的为5.0.0,对应hbase为2.0.x,而且这个版本是个alpha版本,有several影响生产稳定性的缺陷。
查了下2.1.x对应版本jira critical bug,不多。
三。hive
hive作为数据处理的主要组件,版本直接从1.2直接跳到3.x。hive3.x基于hadoop3.x,最早的3.0.0版本18年5月发布,最新的3.1.1版本18年11月发布,我们要用的3.1.0版本18年7月发布。
查了下3.0.0版本后未修正的高优先级bug,结果感人,不少。。
结论:
hadoop3.x缺乏大规模生产环境考验,缺乏说服力;
对于hbase,hive来说,最新版本都太新,连考验的机会都没有;
这是个巨坑!!!(孟老师言概括)
看看其他竞品:
cdh 6.0 适配 hadoop3.0.0,hbase2.1.0,未适配hive
hdp 3.0 适配 hadoop3.1.0,hbase2.0.0,hive3.1.0 2018年3季度。
号称都是100%开源, cdh比较散,比如hadoop子项目还是分拆开的。
https://github.com/hortonworks/hadoop-release/commits/HDP-3.1.0.4-1-tag
https://github.com/cloudera/hive/tree/cdh6.1.1-release
鉴于我们的人员情况,强烈建议采用cdh,hdp中的一家作为基础,再此基础上进行升级整合。
这样可保数年稳定。。