一、基础环境
- Hadoop是用Java开发的,Hadoop的编译及MapReduce的运行都需要使用JDK。
- Hadoop需要通过SSH来启动salve列表中各台主机的守护进程,因此SSH也是必须安装的,即使是安装伪分布式版本(因为Hadoop并没有区分集群式和伪分布式)。对于伪分布式,Hadoop会采用与集群相同的处理方式,即依次序启动文件conf/slaves中记载的主机上的进程,只不过伪分布式中salve为localhost(即为自身),所以对于伪分布式Hadoop,SSH一样是必须的。
1.1 JDK的安装与配置
1、上传压缩包
我使用的是HDFS工具 上传jdk-7u76-linux-x64.tar.gz压缩包
2、解压压缩包到指定目录下
tar -zxvf jdk-7u76-linux-x64.tar.gz -C /root/opt/module
4、配置环境变量
vi /etc/profile
5、重新加载/etc/profile,使配置生效
source /etc/profile
6、查看配置是否生效
echo $PATH
java -version
出现如上信息表示已经配置好了。
二、Host配置
vi /etc/hosts
可以通过hosts来修改服务器名称为master、slave1、slave2
vi /etc/hostname
修改hostname内容为主机名 master
三、Hadoop的安装与配置
使用的是HDFS 上传hadoop-2.7.3tar.gz压缩包到当前路径下,然后使用以下命令将hadoop-2.7.3tar.gz 解压缩到指定目录tar -zxvf hadoop-2.7.1.tar.gz -C /root/opt/module
3.3 配置环境变量
回到根目录,配置hadoop环境变量,命令如下:
vi/etc/profile
在/etc/profile添加如下内容
立刻让hadoop环境变量生效,执行如下命令:
source /etc/profile
再使用hadoop命令,发现可以有提示了,则表示配置生效了。
3.4 Hadoop的配置
进入hadoop-2.7.1的配置目录:
cd /data/hadoop-2.7.1/etc/hadoop
依次修改core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml以及slaves文件。
3.4.1 修改core-site.xml
3.4.2 修改vi hdfs-site.xml
3.4.3 修改vi mapred-site.xml
复制template,生成xml,命令如下:
cp mapred-site.xml.template mapred-site.xml
3.4.4 修改vi yarn-site.xml
3.4.5 修改hadoop-2.7.3/etc/hadoop/slaves
将原来的localhost删除,改成如下内容
vi /data/hadoop-2.7.1/etc/hadoop/slaves
最后如果配置完全分布式集群就将整个hadoop-2.7.1文件夹及其子文件夹使用scp复制到slave1和slave2的相同目录中:
scp -r /root/opt/module/hadoop-2.7.3 root@slave1:/data
scp -r /root/opt/module/hadoop-2.7.3 root@slave2:/data
四、运行Hadoop
4.1 格式化执行命令:hadoop namenode -format
4.2 启动start-all.sh
4.3 查看集群是否启动成功:输入jps
- 测试
在web界面输入:ip:8088和IP:50070正常显示如下图则说明集群搭建成功: