hadoop其实常用的有3个版本:
Apache Hadoop
CDH:Cloudera Distributed Hadoop
HDP:Hortoworks Data Platform
他们的区别在于,Apache Hadoop它里面的框架只是解决了单个框架的问题,如果你要将hadoop、hive、hbase综合起来使用的话,会有很多jar包冲突的问题,不建议生产使用.
CDH的版本,可以通过页面进行配置,文档非常给力,与spark有合作,非常适合用于生产.
下载地址:http://archive.cloudera.com/cdh5/cdh/5/
比如hadoop-2.6.0-cdh5.7.0.tar.gz,通过cdh5.7.0可以找到hadoop生态其他的框架,比如hive,hbase。只要都是cdh5.7.0,就不会有jar包冲突,对比 Apache的版本,就省了不少事,目前市面上70%左右的公司选用此版本,缺点是不开源,遇到了问题,不方便快速定位.
HDP使用的是原版的hadoop,也就是apache的,安装删除比较费劲.