Hadoop2.2.0集群的搭建

最新推荐文章于 2025-08-16 12:59:37 发布

原创最新推荐文章于 2025-08-16 12:59:37 发布 · 192 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Hadoop2.2.0集群的搭建

大数据专栏收录该内容

12 篇文章

订阅专栏

本文详细介绍了如何从零开始搭建Hadoop2.2.0高可用集群，包括虚拟机配置、SSH免密码登录设置、JDK与Zookeeper安装配置、Hadoop集群配置与启动等关键步骤。

Hadoop集群的搭建

一、搭建虚拟机

1. 环境准备：

VMware10、[红帽企业Linux.6.4.服务器版].rhel-server-6.4-x86_64-dvd.iso

2. 虚拟机搭建步骤：

a) 傻瓜式安装略

二、更改主机名和映射

1. 切换到root帐户 su root

2. 执行vi /etc/sysconfig/network

3. 将里面的hostname修改为master

4. Vi /etc/hosts 内容：IP+空格+主机名

5. 需要重新登陆

6. 特别注意将配置文件里的127.0.0.1和loclhost相关配置全部删掉，影响集群访问。

三、配置ssh免密码登陆

1. 执行命令$ssh-keygen -t rsa 穿件公钥和私钥

2. 执行命令$ssh-copy-id –i 指定主机IP或者主机名（建议使用主机名）

3. 注意：配置好后第一次登陆还是需要输入密码的，另外一定要保证全部测试通过。

四、配置JDK

1. 准备JDK jdk-7u25-linux-x64.tar

2. 执行命令$ tar –zxvf jdk-7u25-linux-x64.tar 指定目录

3. 执行命令$vi /etc/profile编辑环境变量，在最后面添加内容：

JAVA_HOME=/root/hadoop/java/jdk1.7.0_25

PATH=$PATH:/root/hadoop/java/jdk1.7.0_25/bin

CLASSPATH=.:/root/hadoop/java/jdk1.7.0_25/jre/lib/dt.jar

export JAVA_HOME PATH CLASSPATH

4. 执行命令$ source /etc/profile 立即生效

5. 执行命令$scp –r 文件夹主机名：~/目录下，输入密码后拷贝开始。

五、安装及配置zookeeper

1. 首先建议关闭防火墙

2. 准备zookeeper-3.4.5.tar.gz 并上传

3. 执行命令$ tar -zxvf zookeeper-3.4.5.tar.gz 目录，进行解压缩

4. 修改配置

cd /hadoop/zookeeper-3.4.5/conf/

cp zoo_sample.cfg zoo.cfg

vim zoo.cfg

修改：dataDir=/hadoop/zookeeper-3.4.5/tmp

在最后添加：

server.1=hadoop04:2888:3888

server.2=hadoop05:2888:3888

server.3=hadoop06:2888:3888

保存退出

然后创建一个tmp文件夹

mkdir /hadoop/zookeeper-3.4.5/tmp

再创建一个空文件

touch /hadoop/zookeeper-3.4.5/tmp/myid

最后向该文件写入ID

echo 1 > /hadoop/zookeeper-3.4.5/tmp/myid

5. 将配置好的zookeeper拷贝到其他节点(首先分别在hadoop05、hadoop06根目录下创建一个hadoop目录：mkdir /hadoop)

scp -r /hadoop/zookeeper-3.4.5/ hadoop05:/hadoop/

scp -r /hadoop/zookeeper-3.4.5/ hadoop06:/hadoop/

注意：修改hadoop05、hadoop06对应/hadoop/zookeeper-3.4.5/tmp/myid内容

hadoop05：

echo 2 > /hadoop/zookeeper-3.4.5/tmp/myid

hadoop06：

echo 3 > /hadoop/zookeeper-3.4.5/tmp/myid

六、安装配置hadoop集群

1. 准备hadoop-2.2.0.tar.gz 注意是用32还是64位编译的

2. 执行命令$ tar -zxvf hadoop-2.2.0.tar.gz 目录，进行解压

3. 配置HDFS（hadoop2.0所有的配置文件都在$HADOOP_HOME/etc/hadoop目录下）

将hadoop添加到环境变量中

vim /etc/profile

export JAVA_HOME=/root/hadoop/java/jdk1.7.0_25

export HADOOP_HOME=/hadoop/hadoop-2.2.0

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

4. 修改hadoo-env.sh

export JAVA_HOME=/root/hadoop/java/jdk1.7.0_25

5. 修改core-site.xml

<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>/hadoop/hadoop-2.2.0/tmp</value>

</property>

<name>ha.zookeeper.quorum</name>

<value>hadoop04:2181,hadoop05:2181,hadoop06:2181</value>

</property>

</configuration>

6. 修改hdfs-site.xml

<name>dfs.nameservices</name>

</property>

<name>dfs.ha.namenodes.ns1</name>

</property>

<name>dfs.namenode.rpc-address.ns1.nn1</name>

<value>hadoop01:9000</value>

</property>

<name>dfs.namenode.http-address.ns1.nn1</name>

<value>hadoop01:50070</value>

</property>

<name>dfs.namenode.rpc-address.ns1.nn2</name>

<value>hadoop02:9000</value>

</property>

<name>dfs.namenode.http-address.ns1.nn2</name>

<value>hadoop02:50070</value>

</property>

<name>dfs.namenode.shared.edits.dir</name>

<value>qjournal://hadoop04:8485;hadoop05:8485;hadoop06:8485/ns1</value>

</property>

<name>dfs.journalnode.edits.dir</name>

<value>/hadoop/hadoop-2.2.0/journal</value>

</property>

<name>dfs.ha.automatic-failover.enabled</name>

</property>

<name>dfs.client.failover.proxy.provider.ns1</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

<name>dfs.ha.fencing.methods</name>

<value>sshfence</value>

</property>

<name>dfs.ha.fencing.ssh.private-key-files</name>

</property>

</configuration>

7. 修改slaves

hadoop04

hadoop05

hadoop06

8. 修改yarn-site.xml

<name>yarn.resourcemanager.hostname</name>

<value>hadoop03</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

9. 修改mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

10. 将配置好的hadoop拷贝到其他节点

七、启动zookeeper集群（分别在hadoop04、hadoop05、hadoop06上启动zk）

启动zookeeper集群:

$cd /hadoop/zookeeper-3.4.5/bin/

$./zkServer.sh start

查看状态：

$./zkServer.sh status

（一个leader，两个follower）

八、启动journalnode（在hadoop01上启动所有journalnode）

cd /hadoop/hadoop-2.2.0

sbin/hadoop-daemons.sh start journalnode

(运行jps命令检验，多了JournalNode进程)

九、格式化HDFS

在hadoop01上执行命令:

hadoop namenode -format

格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成个文件，这里我配置的是/hadoop/hadoop-2.2.0/tmp，然后将/hadoop/hadoop-2.2.0/tmp拷贝到hadoop02的/hadoop/hadoop-2.2.0/下。

$scp -r tmp/ hadoop02:/hadoop/hadoop-2.2.0/

十、格式化ZK(在hadoop01上执行即可)

$hdfs zkfc -formatZK

十一、启动HDFS(在hadoop01上执行)

$sbin/start-dfs.sh

十二、启动YARN(在hadoop01上执行)

$sbin/start-yarn.sh

十三、 So ga 完成了

到此，hadoop2.2.0配置完毕，可以统计浏览器访问:

http://192.168.0.2:50070

NameNode 'hadoop01:9000' (active)

http://192.168.1.202:50070

NameNode 'hadoop02:9000' (standby)

验证HDFS HA

首先向hdfs上传一个文件

hadoop fs -put /etc/profile /profile

hadoop fs -ls /

然后再kill掉active的NameNode

kill -9 <pid of NN>

通过浏览器访问：http://192.168.0.2:50070

NameNode 'hadoop02:9000' (active)

这个时候hadoop02上的NameNode变成了active

在执行命令：

hadoop fs -ls /

-rw-r--r-- 3 root supergroup 1926 2014-02-06 15:36 /profile

刚才上传的文件依然存在！！！

手动启动那个挂掉的NameNode

sbin/hadoop-daemon.sh start namenode

通过浏览器访问：http://192.168.0.2:50070

NameNode 'hadoop01:9000' (standby)

十四、最后来张快照，记录我第一次搭建成功。耗时一天半，此时特别激动。

集群规划：

主机名 IP 安装的软件运行的进程

hadoop01 192.168.0.2 jdk、hadoop NameNode、DFSZKFailoverController

hadoop02 192.168.0.3 jdk、hadoop NameNode、DFSZKFailoverController

hadoop03 192.168.0.4 jdk、hadoop ResourceManager

hadoop04 192.168.0.5 jdk、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain

hadoop05 192.168.0.6 jdk、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain

hadoop06 192.168.0.7 jdk、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain

说明：

在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。

hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM。这里我们使用简单的QJM。在该方案中，主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode

这里还配置了一个zookeeper集群，用于ZKFC（DFSZKFailoverController）故障转移，当Active NameNode挂掉了，会自动切换Standby NameNode为standby状态