这里,以搭建3台hadoop服务器的集群为例(更多台的原理是一样的),首先需准备好3台纯净的Linux服务器(用虚拟机克隆即可),并设置好相应的主机名和ip,具体教程见
搭建hadoop运行环境的详细教程
这里不再赘述。需要注意,为了方便演示,3台服务器的主机名假定分别为hadoop102、hadoop103、hadoop104,企业中真实使用的主机名会比这个要长。
1、集群部署规划
hadoop102 | hadoop103 | hadoop104 |
---|---|---|
NameNode | SecondaryNameNode | |
DataNode | DataNode | DataNode |
ResourceManager | ||
NodeManager | NodeManager | NodeManager |
2、SSH无密码登录
(1)进入到我的home目录
[root@hadoop102 /]# cd ~/.ssh
(2)生成公钥和私钥
[root@hadoop102 .ssh]# ssh-keygen -t rsa
然后敲(三个回车),就会生成两个文件:id_rsa(私钥)、id_rsa.pub(公钥)
(3)将公钥拷贝到要免密登录的目标机器上
[root@hadoop102 .ssh]# ssh-copy-id hadoop102
[root@hadoop102 .ssh]# ssh-copy-id hadoop103
[root@hadoop102 .ssh]# ssh-copy-id hadoop104
这里,需要注意,因为hadoop103部署ResourceManager节点,所以需要到hadoop103这台机器将公钥拷贝到要免密登录的目标机器上,如下:
[root@hadoop103 .ssh]# ssh-copy-id hadoop102
[root@hadoop103 .ssh]# ssh-copy-id hadoop103
[root@hadoop103 .ssh]# ssh-copy-id hadoop104
(4)补充知识:.ssh文件夹下的文件功能解释
(4-1)known_hosts:记录ssh访问过计算机的公钥(public key);
(4-2)id_rsa:生成的私钥;
(4-3)id_rsa.pub:生成的公钥;
(4-4)authorized_keys:存放授权过得无秘登录服务器公钥。
3、编写集群分发脚本xsync
(1)了解rsync的用法
远程同步工具,主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
(1-1)查看rsync使用说明
[root@hadoop102 /]# man rsync | more
(1-2)rsync的基本用法
[root@hadoop102 /]# rsync -rvl $pdir/$fname $user@hadoop$host:$pdir
即:命令 命令参数 要拷贝的文件路径/名称 目的用户@主机:目的路径
(1-3)举例
把本机/opt/tmp目录同步到hadoop103服务器的root用户下的/opt/tmp目录
[root@hadoop102 /]# rsync –rvl /opt/tmp/* root@hadoop103:/op t/tmp
(2)在/usr/local/bin目录下创建xsync文件
★ 在/usr/local/bin这个目录下存放的脚本,可以在系统任何地方直接执行,需要制定路径。xsync文件内容如下:
#!/bin/bash
#1 获取输入参数个数,如果没有参数,直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi
#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname
#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir
#4 获取当前用户名称
user=`whoami`
#5 循环
for((host=103; host<=105; host++)); do
#echo $pdir/$fname $user@hadoop$host:$pdir
echo --------------- hadoop$host ----------------
rsync -rvl $pdir/$fname $user@hadoop$host:$pdir
done
(3)修改脚本 xsync 具有执行权限
[root@hadoop102 bin]# chmod a+x xsync
4、编写分发脚本xcall
(1)在/usr/local/bin目录下创建xcall文件
#!/bin/bash
pcount=$#
if((pcount==0));then
echo no args;
exit;
fi
echo -------------localhost----------
$@
for((host=101; host<=105; host++)); do
echo ----------hadoop$host---------
ssh hadoop$host $@
done
(2)修改脚本 xcall 具有执行权限
[root@hadoop102 bin]# chmod a+x xcall
5、修改配置文件并分发
路径
[root@hadoop102 ~]# /opt/module/hadoop-2.7.2/etc/hadoop
(1)core-site.xml
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:8020</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
(2)HDFS相关的配置文件
(2-1)hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.7.0_79
(2-2)hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:50090</value>
</property>
</configuration>
(2-3)slaves
hadoop102
hadoop103
hadoop104
(3)YARN相关配置
(3-1)yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.7.0_79
(3-2)yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop103</value>
</property>
</configuration>
(4)MapReduce相关配置
(4-1)mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.7.0_79
(4-2)mapred-site.xml
<configuration>
<!-- 指定mr运行在yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
(5)分发core-site.xml、yarn-site.xml和slaves至hadoop103、hadoop104
[root@hadoop102 /]# xsync /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml
[root@hadoop102 /]# xsync /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml
[root@hadoop102 /]# xsync /opt/module/hadoop-2.7.2/etc/hadoop/slaves
6、删除data和logs
若之前配置过hadoop,需执行如下脚本,删除旧数据 ,否则hadoop启动会失败(注意:第一次配置hadoop无需执行该步骤)
[root@hadoop102 hadoop-2.7.2]# xcall rm -rf data/ logs/
7、格式化namenode
[root@hadoop102 hadoop-2.7.2]# bin/hdfs namenode -format
8、启动集群
(1)启动HDFS
[root@hadoop102 hadoop-2.7.2]# sbin/start-dfs.sh
(2)启动yarn(在hadoop103启动)
[root@hadoop103 hadoop-2.7.2]# sbin/start-yarn.sh
9、集群的基本测试
★ 集群操作和Linux本地操作类似,但要以bin/hdfs dfs 或者 bin/hadoop fs作为开头,这两者的区别是:bin/hdfs dfs只能操作HDFS文件存储系统
(1)创建文件夹案例
[root@hadoop102 hadoop-2.7.2]# bin/hdfs dfs –mkdir –p /user/atguigu/tmp/conf
(2)上传文件案例
[root@hadoop102 hadoop-2.7.2]# bin/hadoop fs -put /opt/software/hadoop-2.7.2.tar.gz /user/atguigu/input
(3)下载文件案例
[root@hadoop102 hadoop-2.7.2]# bin/hadoop fs -get /user/atguigu/input/hadoop-2.7.2.tar.gz
(4)拼接文件案例
[root@hadoop102 subdir0]$ cat blk_1073741837>>tmp.file
10、Hadoop启动停止方式
(1)各个服务组件逐一启动
(1-1)HDFS组件
[root@hadoop102 hadoop-2.7.2]# sbin/hadoop-daemon.sh start|stop namenode|datanode|secondarynamenode
(1-2)YARN
[root@hadoop102 hadoop-2.7.2]# sbin/yarn-daemon.sh start|stop resourcemanager|nodemanager
(2)整体启动/停止HDFS
[root@hadoop102 hadoop-2.7.2]# sbin/start-dfs.sh
[root@hadoop102 hadoop-2.7.2]# sbin/stop-dfs.sh
(3)整体启动/停止YARN
[root@hadoop102 hadoop-2.7.2]# sbin/start-yarn.sh
[root@hadoop102 hadoop-2.7.2]# sbin/stop-yarn.sh