Hadoop集群搭建

最新推荐文章于 2024-04-27 12:18:01 发布

原创最新推荐文章于 2024-04-27 12:18:01 发布 · 184 阅读

CC 4.0 BY-SA版权

本文详细介绍Hadoop集群的搭建过程，包括系统环境准备、NTP时间服务器配置、无密钥登录设置、JDK及Hadoop安装配置等关键步骤。

 ====Hadoop集群======================================================

 ** 集群

 ** 伪分布式

 集群规划：

 blue01 blue02 blue03 

 HDFS namenode SecondaryNamenode

 datanode datanode datanode

 YARN resourcemanager

 nodemanager nodemanager nodemanager

PS:

 ** 快速终止所有java进程，生产环境不建议使用

 $ kill all java 

 集群部署：

 一、准备系统环境

 1、主机名[root用户]

 # vi /etc/sysconfig/network

 HOSTNAME=blue01.mydomain --第一台

 HOSTNAME=blue02.mydomain --第二台

 HOSTNAME=blue03.mydomain --第三台

 2、主机名和ip地址的映射 [root用户] [三台服务器]

 # vi /etc/hosts 

 # 注意：每台主机的hosts文件里都写入三条，而不是一条

 192.168.122.128 blue01.mydomain

 192.168.122.130 blue02.mydomain

 192.168.122.131 blue03.mydomain

<--

 192.168.106.130 blue01.mydomain

 192.168.106.131 blue02.mydomain

 192.168.106.132 blue03.mydomain

-->

 3、创建普通用户 [root用户] [三台服务器]

 # useradd tom

 # echo blue | passwd --stdin tom 

 4、关闭iptables和selinux [root用户] [三台服务器]

 # service iptables status --查看防火墙状态，若开启则关闭

 # service iptables stop --关闭防火墙服务

 # chkconfig iptables off --让iptables开启不启动

 # vi /etc/sysconfig/selinux 

 SELINUX=disabled

 5、配置静态IP和DNS [root用户] [三台服务器]

 # vi /etc/sysconfig/network-scripts/ifcfg-eth0，文件名或许有所差别

 BOOTPROTO=static

 IPADDR=192.168.122.128

 NETMASK=255.255.255.0

 GATEWAY=192.168.122.2

 DNS1=192.168.122.2

 # service network restart

 6、把系统启动级别改成“字符模式”(可选) [root用户] [后面两台服务器] ------->不做

 **安装时，类型选择“Basic”，装出来就没有界面

 # vi /etc/inittab

 id:3:initdefault: --改之前值为5，界面登录

 7、卸载多余的JDK [root用户] [三台服务器]

 # rpm -qa | grep -i java

 # rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.x86_64

 二、配置NTP时间服务器

 # Network Time Protocol，用来同步网络中各个计算机时间的协议 --------> 只配置blue01为时间服务器

 ** 把blue01这台服务器配置为时间服务器

 ** 然后集群内其他服务器都来同步这台服务器的时间

 ** 目的: 集群内所有节点的时间一致

 ***[三台服务器]统一时区：

 # date --当前时间

 # date -R --当前系统时区

 Thu, 25 Aug 2016 14:51:07 +0800 --东8区

 # 如果时区不是东8区

 # rm -rf /etc/localtime

 # ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime --做一个链接，或者在界面上改时区

 *** 在[blue01]上操作：(注意:不是三台)

 1、同步时间

 # ntpdate cn.pool.ntp.org --同步当前服务器时间，网上可以搜索时间服务器

 25 Aug 14:47:41 ntpdate[10105]: step time server 202.112.29.82 offset -9.341897 sec

 2、检查ntp软件包是否安装(可选)

 # rpm -qa | grep ntp

 ntp-4.2.4p8-3.el6.centos.x86_64

 # yum -y install ntp --如果没有安装需要安装ntp

 3、修改ntp配置文件

 # vi /etc/ntp.conf

a)

 ** 去掉下面这行前面的# ,并把网段修改成自己的网段，即允许哪个网段来同步时间

 restrict 192.168.122.0 mask 255.255.255.0 nomodify notrap

b)

 # 注释掉以下几行，禁止它去同步互联网上其他NTP服务器

 #server 0.centos.pool.ntp.org

 #server 1.centos.pool.ntp.org

 #server 2.centos.pool.ntp.org

c)

 # 把下面两行前面的#号去掉,如果没有这两行,需要手动添加

 server 127.127.1.0 #本地系统时钟(BIOS)地址

 fudge 127.127.1.0 stratum 10

 4、启动ntp服务

 # service ntpd start

 # chkconfig ntpd on --开机启动

 # service ntpd status --查看状态

 ** 若需要重启，则# service ntpd restart

 -------------------------------------------------------------------- 

 ***使[blue02、blue03]同步[blue01]：

 # service ntpd stop 

 # chkconfig ntpd off

 # ntpdate blue01.mydomain --去第一台服务器同步时间

 25 Aug 15:16:47 ntpdate[2092]: adjust time server 192.168.17.129 offset 0.311666 sec

 制定计划任务,周期性同步时间,定时任务

 # crontab -e

 */10 * * * * /usr/sbin/ntpdate blue01.mydomain --每10分钟同步一次

 [分 时 日 月 星期]

 # service crond restart

 # crontab -l : 查看contab

 三、配置无密钥登录

 规划：blue01、blue02可以无密钥登录三台主机

 blue01 --> blue01

 blue02

 blue03 

 blue02 --> blue01

 blue02

 blue03 

 在blue01上：[tom]

 1 生成一对公私钥对

 # su - tom

 $ ssh-keygen -t rsa #一直回车，rsa为指定的加密算法 

 ** 执行后，在/home/tom/.ssh/下生成一对文件：id_rsa、id_rsa.pub

 2 把自己的公钥发给blue01、blue02、blue03，会在.ssh/内生成authorized_keys文件

 $ ssh-copy-id blue01.mydomain --需要输入‘yes’和目标节点的密码

 $ ssh-copy-id blue02.mydomain

 $ ssh-copy-id blue03.mydomain

 ***公钥发给了对方，就可以不用输入密码，直接使用私钥登录到对方主机

 $ ssh tom@blue02.mydomain ----->检验

 blue02：

 $ ssh-keygen -t rsa

 $ ssh-copy-id blue01.mydomain #两个公钥都会写在authorized_keys里

 $ ssh-copy-id blue02.mydomain

 $ ssh-copy-id blue03.mydomain

 PS：

 1 若是不成功，则将这两个文件删除，再重新生成这两个文件即可

 2 若是没有ssh-keygen命令

 先用$ which ssh-keygen找到该命令对应文件：/usr/bin/ssh-keygen

 然后用$ rpm -qf /usr/bin/ssh-keygen查找该文件所在的安装包：openssh-5.3p1-84.1.el6.x86_64

 安装该安装包

 四、安装配置JDK(配置blue01) --不用此方法，分别单独安装jdk也可以

 # mkdir /opt/modules/ 

 # chown tom:tom /opt/modules/

 # 拷贝jdk目录到后面两台服务器

 $ scp -r jdk1.7.0_67/ blue02.mydomain:/opt/modules/ --远程拷贝命令

 $ scp -r jdk1.7.0_67/ blue03.mydomain:/opt/modules/

 [blue02、blue03]

 # vi /etc/profile

 ## JAVA HOME

 JAVA_HOME=/opt/modules/jdk1.7.0_67

 export PATH=$PATH:$JAVA_HOME/bin

 ----------------------------------------

 五、安装配置Hadoop 

 *** 面试题：Hadoop的安装步骤

 *** 只要在[blue01]上配置好，拷贝到其他节点即可：

 &&& 和伪分布式不同-0

 $ rm -rf data/

 1、修改JAVA_HOME

 hadoop-env.sh yarn-env.sh mapred-env.sh

 export JAVA_HOME=/opt/modules/jdk1.7.0_67

 2、core-site.xml

 <property>

 <name>fs.defaultFS</name>

 <value>hdfs://blue01.mydomain:8020</value>

 </property>

 <property>

 <name>hadoop.tmp.dir</name>

 <value>/opt/modules/hadoop-2.5.0/data</value>

 </property> 

 &&& 和伪分布式不同-1

 3、修改etc/hadoop/slaves --声明哪些服务器是datanode

 blue01.mydomain

 blue02.mydomain

 blue03.mydomain

 &&& 和伪分布式不同-2

 4、修改hdfs-site.xml

 <property>

 <name>dfs.replication</name>

 <value>3</value>

 </property>

 <property>

 <name>dfs.namenode.secondary.http-address</name>

 <value>blue03.mydomain:50090</value>

 </property>

 <property>

 <name>dfs.namenode.http-address</name>

 <value>blue01.mydomain:50070</value>

 </property>

 <!--关闭权限许可检查-->

 <property>

 <name>dfs.permissions.enabled</name>

 <value>false</value>

 </property>

 5、yarn-site.xml

 <!-- &&& 和伪分布式不同-3 -->

 <property>

 <name>yarn.resourcemanager.hostname</name>

 <value>blue02.mydomain</value>

 </property>

 <property>

 <name>yarn.nodemanager.aux-services</name>

 <value>mapreduce_shuffle</value>

 </property>

 <property>

 <name>yarn.log-aggregation-enable</name>

 <value>true</value>

 </property>

 <property>

 <name>yarn.log-aggregation.retain-seconds</name>

 <value>86400</value>

 </property>

 6、mapred-site.xml --不用改

 <property>

 <name>mapreduce.framework.name</name>

 <value>yarn</value>

 </property> 

 <property>

 <name>mapreduce.jobhistory.address</name>

 <value>blue01.mydomain:10020</value>

 </property>

 <property>

 <name>mapreduce.jobhistory.webapp.address</name>

 <value>blue01.mydomain:19888</value>

 </property>

 ## nodemanager不用声明，datanode默认为nodemanager

 7、拷贝hadoop安装目录给其他节点

 $ rm -rf share/doc/ #里面是帮助文档，1.6G，拷贝前可以删除掉

 $ scp -r hadoop-2.5.0/ blue02.mydomain:/opt/modules/

 $ scp -r hadoop-2.5.0/ blue03.mydomain:/opt/modules/

 ----启动------------------------------

 集群规划：

 blue01 blue02 blue03 

 HDFS namenode SecondaryNamenode

 datanode datanode datanode

 YARN resourcemanager

 nodemanager nodemanager nodemanager

 六、启动Hadoop 

 在[blue01]：

 $ bin/hdfs namenode -format --在data目录里创建出fsimage

 $ sbin/start-dfs.sh --启动HDFS

 在[blue02]: ** 注意

 $ sbin/start-yarn.sh --启动YARN

 三种启动方式

 第一种：分角色启动，比较麻烦

 $ sbin/hadoop-daemon.sh start namenode

 ......

 第二种：必需配置无密钥登录

 本例中启动了1个namenode、1个SecondaryNamenode和3个datanode

 $ sbin/start-dfs.sh

 $ sbin/start-yarn.sh

 第三种：

 $ sbin/start-all.sh 

 七、运行

 http://192.168.122.128:50070/

 http://192.168.122.130:8088/cluster/