搭建hadoop集群的详细教程

这里,以搭建3台hadoop服务器的集群为例(更多台的原理是一样的),首先需准备好3台纯净的Linux服务器(用虚拟机克隆即可),并设置好相应的主机名和ip,具体教程见
搭建hadoop运行环境的详细教程
这里不再赘述。需要注意,为了方便演示,3台服务器的主机名假定分别为hadoop102、hadoop103、hadoop104,企业中真实使用的主机名会比这个要长。

1、集群部署规划

hadoop102hadoop103hadoop104
NameNodeSecondaryNameNode
DataNodeDataNodeDataNode
ResourceManager
NodeManagerNodeManagerNodeManager

2、SSH无密码登录

(1)进入到我的home目录

[root@hadoop102 /]# cd  ~/.ssh

(2)生成公钥和私钥

[root@hadoop102 .ssh]# ssh-keygen -t rsa

然后敲(三个回车),就会生成两个文件:id_rsa(私钥)、id_rsa.pub(公钥)
(3)将公钥拷贝到要免密登录的目标机器上

[root@hadoop102 .ssh]# ssh-copy-id hadoop102
[root@hadoop102 .ssh]# ssh-copy-id hadoop103
[root@hadoop102 .ssh]# ssh-copy-id hadoop104

这里,需要注意,因为hadoop103部署ResourceManager节点,所以需要到hadoop103这台机器将公钥拷贝到要免密登录的目标机器上,如下:

[root@hadoop103 .ssh]# ssh-copy-id hadoop102
[root@hadoop103 .ssh]# ssh-copy-id hadoop103
[root@hadoop103 .ssh]# ssh-copy-id hadoop104

(4)补充知识:.ssh文件夹下的文件功能解释
(4-1)known_hosts:记录ssh访问过计算机的公钥(public key);
(4-2)id_rsa:生成的私钥;
(4-3)id_rsa.pub:生成的公钥;
(4-4)authorized_keys:存放授权过得无秘登录服务器公钥。

3、编写集群分发脚本xsync

(1)了解rsync的用法
远程同步工具,主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
(1-1)查看rsync使用说明

[root@hadoop102 /]# man rsync | more

(1-2)rsync的基本用法

[root@hadoop102 /]# rsync -rvl $pdir/$fname $user@hadoop$host:$pdir

即:命令 命令参数 要拷贝的文件路径/名称 目的用户@主机:目的路径
(1-3)举例
把本机/opt/tmp目录同步到hadoop103服务器的root用户下的/opt/tmp目录

[root@hadoop102 /]# rsync –rvl /opt/tmp/*  root@hadoop103:/op	t/tmp

(2)在/usr/local/bin目录下创建xsync文件
★ 在/usr/local/bin这个目录下存放的脚本,可以在系统任何地方直接执行,需要制定路径。xsync文件内容如下:

#!/bin/bash
#1 获取输入参数个数,如果没有参数,直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi

#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

#5 循环
for((host=103; host<=105; host++)); do
        #echo $pdir/$fname $user@hadoop$host:$pdir
        echo --------------- hadoop$host ----------------
        rsync -rvl $pdir/$fname $user@hadoop$host:$pdir
done

(3)修改脚本 xsync 具有执行权限

[root@hadoop102 bin]# chmod a+x xsync

4、编写分发脚本xcall

(1)在/usr/local/bin目录下创建xcall文件

#!/bin/bash
pcount=$#
if((pcount==0));then
        echo no args;
        exit;
fi

echo -------------localhost----------
$@
for((host=101; host<=105; host++)); do
        echo ----------hadoop$host---------
        ssh hadoop$host $@
done

(2)修改脚本 xcall 具有执行权限

[root@hadoop102 bin]# chmod a+x xcall

5、修改配置文件并分发

路径

[root@hadoop102 ~]# /opt/module/hadoop-2.7.2/etc/hadoop

(1)core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
	<property>
		<name>fs.defaultFS</name>
        <value>hdfs://hadoop102:8020</value>
	</property>

<!-- 指定hadoop运行时产生文件的存储目录 -->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/module/hadoop-2.7.2/data/tmp</value>
	</property>

(2)HDFS相关的配置文件
(2-1)hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.7.0_79

(2-2)hdfs-site.xml

<configuration>	
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>

	<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop104:50090</value>
    </property>
</configuration>

(2-3)slaves

hadoop102
hadoop103
hadoop104

(3)YARN相关配置
(3-1)yarn-env.sh

export JAVA_HOME=/opt/module/jdk1.7.0_79

(3-2)yarn-site.xml

<configuration>
<!-- Site specific YARN configuration properties -->
<!-- reducer获取数据的方式 -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

<!-- 指定YARN的ResourceManager的地址 -->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>hadoop103</value>
	</property>
</configuration>

(4)MapReduce相关配置
(4-1)mapred-env.sh

export JAVA_HOME=/opt/module/jdk1.7.0_79

(4-2)mapred-site.xml

<configuration>
<!-- 指定mr运行在yarn上 -->
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
</configuration>

(5)分发core-site.xml、yarn-site.xml和slaves至hadoop103、hadoop104

[root@hadoop102 /]# xsync /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml
[root@hadoop102 /]# xsync /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml
[root@hadoop102 /]# xsync /opt/module/hadoop-2.7.2/etc/hadoop/slaves

6、删除data和logs

若之前配置过hadoop,需执行如下脚本,删除旧数据 ,否则hadoop启动会失败(注意:第一次配置hadoop无需执行该步骤)

[root@hadoop102 hadoop-2.7.2]# xcall rm -rf data/ logs/

7、格式化namenode

[root@hadoop102 hadoop-2.7.2]# bin/hdfs namenode -format

8、启动集群

(1)启动HDFS

[root@hadoop102 hadoop-2.7.2]# sbin/start-dfs.sh

(2)启动yarn(在hadoop103启动)

[root@hadoop103 hadoop-2.7.2]# sbin/start-yarn.sh

9、集群的基本测试

★ 集群操作和Linux本地操作类似,但要以bin/hdfs dfs 或者 bin/hadoop fs作为开头,这两者的区别是:bin/hdfs dfs只能操作HDFS文件存储系统
(1)创建文件夹案例

[root@hadoop102 hadoop-2.7.2]# bin/hdfs dfs –mkdir –p /user/atguigu/tmp/conf

(2)上传文件案例

[root@hadoop102 hadoop-2.7.2]# bin/hadoop fs -put /opt/software/hadoop-2.7.2.tar.gz  /user/atguigu/input

(3)下载文件案例

[root@hadoop102 hadoop-2.7.2]# bin/hadoop fs -get /user/atguigu/input/hadoop-2.7.2.tar.gz

(4)拼接文件案例

[root@hadoop102 subdir0]$ cat blk_1073741837>>tmp.file

10、Hadoop启动停止方式

(1)各个服务组件逐一启动
(1-1)HDFS组件

[root@hadoop102 hadoop-2.7.2]# sbin/hadoop-daemon.sh  start|stop  namenode|datanode|secondarynamenode

(1-2)YARN

[root@hadoop102 hadoop-2.7.2]# sbin/yarn-daemon.sh  start|stop  resourcemanager|nodemanager

(2)整体启动/停止HDFS

[root@hadoop102 hadoop-2.7.2]# sbin/start-dfs.sh
[root@hadoop102 hadoop-2.7.2]# sbin/stop-dfs.sh

(3)整体启动/停止YARN

[root@hadoop102 hadoop-2.7.2]# sbin/start-yarn.sh
[root@hadoop102 hadoop-2.7.2]# sbin/stop-yarn.sh
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lmh450201598

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值