Hadoop(2.7.0)伪分布式环境CentOS(7.0 64位)配置

Hadoop 2.7.0 伪分布式部署

最新推荐文章于 2021-10-28 18:26:30 发布

原创最新推荐文章于 2021-10-28 18:26:30 发布 · 1.5k 阅读

0 ·

CC 4.0 BY-SA版权

hadoop 专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了如何在 CentOS 7.0 64位环境下搭建 Hadoop 2.7.0 的伪分布式环境，包括 SSH 无密码验证配置、JDK 安装及环境变量配置、Hadoop 安装与配置步骤，以及格式化与启动 Hadoop 的过程。

Hadoop(2.7.0)伪分布式环境CentOS(7.0 64位)配置

1、实现ssh无密码验证配置

2、安装jdk，并配好环境变量

3、安装与配置Hadoop

4、格式化与启动

5、验证是否启动

一. SSH无密码验证配置
Hadoop 需要使用SSH 协议，namenode 使用SSH 协议启动 namenode 和datanode 进程，伪分布式模式数据节点和名称节点均是本身，必须配置 SSH localhost无密码验证。
以下用root用户登录仅为了方便起见。登录后，执行命令：ssh-keygen -t rsa

[root@master ~]# ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): & 按回车默认路径 &
Created directory '/root/.ssh'. &创建/root/.ssh目录&
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.

通过以上命令将在/root/.ssh/ 目录下生成id_rsa私钥和id_rsa.pub公钥。进入/root/.ssh目录在namenode节点下做如下配置：

[root@master .ssh]# cat id_rsa.pub > authorized_keys
将id_rsa.pub写入authorized_keys，配置完毕，可通过ssh 本机IP 测试是否需要密码登录：ssh localhost

二. 环境搭建
搭建测试环境所需的软件包括：

1. JDK 1.8.2，安装文件 jdk-8u20-linux-x64.rpm (http://www.oracle.com/technetwork/java/javase/index.html)

执行rpm -i jdk-8u20-linux-x64.rpm安装JDK

然后设置JAVA_HOME等环境变量：vim /etc/profile，在其末尾增加一段：

#set java home
export JAVA_HOME=/usr/local/jdk1.8
export JRE_HOME=/usr/local/jdk1.8/jre
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

在vim编辑器增加以上内容后保存退出(:wq)，并执行以下命令使配置生效
chmod +x /etc/profile #增加执行权限
source /etc/profile #使其生效
配置完毕后，在命令行中输入java -version与echo $JAVA_HOME，根据提示信息可知是否设置成功。

然后vim hadoop/etc/hadoop/hadoop-env.sh 与 vim hadoop/etc/hadoop/yarn-env.sh来配置两个文件里的JAVA_HOME，后者是新版本Hadoop特有的。

2.Hadoop 2.7.0，安装文件 hadoop-2.7.0.tar.gz (http://hadoop.apache.org/common/releases.html)

下载 hadoop-2.7.0.tar.gz，将其下载或者复制到/usr/目录下，然后使用如下命令:

cd /usr #进入"/usr"目录
tar –zxvf hadoop-2.7.10tar.gz #解压hadoop-2.7.0.tar.gz安装包
mv hadoop-2.7.0 hadoop #将hadoop-2.7.0文件夹重命名hadoop
rm –rf hadoop-2.7.0.tar.gz #删除安装包

然后把Hadoop的安装路径添加到"/etc/profile"中，将以下语句添加到末尾，并使其有效：

# set hadoop path
export HADOOP_HOME=/usr/hadoop
export PATH=$PATH :$HADOOP_HOME/bin

请注意这里安装2.7.0版本，2.*版本较1.*版本改动很大，主要是用Hadoop MapReduceV2(Yarn) 框架代替了一代的架构，其中JobTracker 和 TaskTracker 不见了，取而代之的是 ResourceManager, ApplicationMaster 与 NodeManager 三个部分，而具体的配置文件位置与内容也都有了相应变化，具体的可参考文献：http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/

安装完之后进行配置，首先所有的配置文件从上一版本的hadoop/conf换成了hadoop/etc/hadoop，在hadoop目录下，执行vim etc/hadoop/core-site.xml，将其配置为：

<name>hadoop.tmp.dir</name>

<value>/usr/hadoop/tmp</value>

<description>A base for other temporary directories.</description>

</property>

<name>fs.defaultFS</name>

</property>

</configuration>

然后执行vim etc/hadoop/hdfs-site.xml进行第二项配置：

<name>dfs.namenode.name.dir</name>

<value>/usr/hadoop/hdfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/usr/hadoop/hdfs/data</value>

</property>

<name>dfs.replication</name>

</property>

</configuration>

请注意上述路径都需要自己手动用mkdir创建，具体位置也可以自己选择，其中dfs.replication的值建议配置为与分布式 cluster 中实际的 DataNode 主机数一致，在这里由于是伪分布式环境所以设置其为1。

上述配置也可参考：http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation

接下来执行vim etc/hadoop/mapred-site.xml配置其使用 Yarn 框架执行 map-reduce 处理程序，内容如下：
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>Yarn</value>
</property>
</configuration>

最后执行vim etc/hadoop/yarn-site.xml对yarn进行配置，其内容如下：

<name>Yarn.nodemanager.aux-services</name>

<value>mapreduce.shuffle</value>

</property>

<description>The address of the applications manager interface in the RM.</description>

<name>Yarn.resourcemanager.address</name>

</property>

<description>The address of the scheduler interface.</description>

<name>Yarn.resourcemanager.scheduler.address</name>

</property>

<description>The address of the RM web application.</description>