一、Hadoop的安装模式
Hadoop支持的运行模式有3种:
- 本地/独立模式:无须运行任何守护进程,所有程序都在同一个JVM上执行。由于在本机模式下测试和调试MapReduce程序较为方便,因此,这种模式适用于开发阶段。
- 伪分布模式:Hadoop对应Java守护进程都运行在一个物理机器上,模拟一个小规模集群的运行模式
- 全分布模式:Hadoop对应的Java守护进程运行在一个集群上。
二、版本选择
由于大数据今年来的兴起,Hadoop生态系统的产品不断升级改进,造成版本配合上的差异,故在着手搭建之前,选择正确的版本尤为重要。如果应用产品版本见不兼容,需要进行jar包覆盖,参数配置,有些改动较大的功能甚至不能使用。
- Hbase1.2.6(稳定版本)与JDK版本对应表如下图:
- Hbase1.2.6(稳定版本)与Hadoop版本对应表如下图:
注:“S”表示支持,“X”表示不支持,“NT”表示未测试 - Hive2.1.1(稳定版)与JDK版本关系:Hive1.2以上需要Java1.7及以上的JDK版本。
- Hive2.1.1(稳定版)与Hadoop版本关系:首选Hadoop 2.x。(Hadoop 1.x不支持Hive 2.0.0以上版本)。
综上:选择Hbase1.2.6、Hive2.1.1、Hadoop2.6.1来进行Hadoop环境的搭建
三、Hadoop安装先决条件
-
JDK安装。在我之前的文章里有提到
-
Apache安装。Hadoop运行过程中需要管理远端Hadoop守护进程,在Hadoop启动以后,NameNode是通过SSH(Sercure Shell)来启动和停止各个DataNode上的各种守护进程的。这就必须在节点之间执行指令的时候采取不需要输入密码的形式,故需要配置SSH运用无密码公钥认证的形式,这样NameNode才能使用SSH无密码登录并启动DataNode进程。反之亦然。所以必须安装SSH,并且sshd必须正在运行,这样才能使用管理远程Hadoop守护进