Hadoop伪分布式与集群式安装配置

最新推荐文章于 2024-12-23 18:14:26 发布

SprintfWater

最新推荐文章于 2024-12-23 18:14:26 发布

阅读量1.1k

点赞数

分类专栏：分布式系统（云存储&云计算）

分布式系统（云存储&云计算）专栏收录该内容

30 篇文章

订阅专栏

本文详细介绍了Hadoop伪分布及集群模式的部署步骤，包括环境配置、SSH无密码验证配置、JDK配置、Hadoop配置等关键环节，并提供了常见问题解决方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转载：http://www.cnblogs.com/yedezhanghao/archive/2012/07/29/2614182.html

配置前的说明

部署伪分布式与集群式Hadoop的绝大部分操作都是一样的，细节上区别在于集群式是在两台机子上部署的，两台机子都要执行下列操作，而伪分布式都是在一台机子上操作，以下全部操作如没有特别说明，则伪分布式操作与集群式操作等同。

环境说明

伪分布式Hadoop

l 本次hadoop配置的为伪分布模式，即在一个机子上作为namenode，又作为datanode。

l 操作系统：CentOS5.5

l JDK：1.6.0_26

l Hadoop：hadoop-0.21.0

集群分布式Hadoop

l 本次hadoop配置的为集群分布模式，即在一个机子上作为namenode，另一台机子作为datanode。

l 操作系统：CentOS5.5

l JDK：1.6.0_26

l Hadoop：hadoop-0.21.0

l 网络配置：

网络配置

查看主机名

使用下面命令进行查看主机名，若要更改，请查看下一步操作。

hostname

修改主机名

第一步，查看主机IP地址。

用下面命令即可查看，本机IP为192.168.1.101（以下操作请使用root用户方可执行）

ifconfig

第二步，若想更改主机名，则可以通过修改文件“/etc/sysconfig/network”中的HOSTNAME后面的值，即可改成我们想要的名字。

用下面命令进行修改主机名。

nano /etc/sysconfig/network

第三步，修改文件“/etc/hosts”。

使用命令打开后更改为如图所示的样子。将原有的全部注释（前面加#），namenode为第一个，datanode为第二个，因为伪分布式模式是namenode和datanode为同一个的，所以两个都是一样。

nano /etc/hosts

集群模式则修改为如图所示。（两个机子修改为一样的，第一个为namenode，第二个datanode）

SSH无密码验证配置

关于SSH服务

还要安装rsync，执行命令sudo yum install rsync

创建hadoop用户

使用root用户创建hadoop用户，依次执行下列命令即可。（集群模式则每台机器都需要这样操作）

useradd hadoop（新增用户）

passwd hadoop (输入两次密码，但输入期间是无任何字符显示的)

生成SSH密钥

注销，切换到用户hadoop下，执行下列命令。

cd /home/hadoop

ssh-keygen -t rsa（一路回车，选择默认的保存路径）

进入.ssh目录：cd .ssh

cp id_rsa.pub authorized_keys

ssh 你的主机名

不需要输入密码即为成功，输入exit退出，若要输入密码，则在.ssh目录下执行命令chmod 600 authorized_keys后即可。

上述为伪分布式SSH配置成功，若为集群式还需要下列一个操作方可。

将namenode上的公钥拷贝到datanode，namenode机器在hadoop用户的用户目录下（/home/hadoop）下执行命令ssh-copy-id -i $HOME/.ssh/id_rsa.pub hadoop@（datanode的主机名）。

执行命令SSH datanode的主机名。若不需要密码则为成功。

JDK配置

下载JDK

使用root用户登录后，执行命令yum install jdk。若找不到，则去官网下载（https://cds.sun.com/is-bin/INTERSHOP.enfinity/WFS/CDS-CDS_Developer-Site/en_US/-/USD/ViewProductDetail-Start?ProductRef=jdk-6u22-oth-JPR@CDS-CDS_Developer）

安装JDK

新建目录/usr/java，将源码包jdk-6u22-linux-i586.bin复制到该目录下，执行命令chmod a+x jdk-6u22-linux-i586.bin。

执行命令 ./jdk-6u22-linux-i586.bin进行安装。

配置环境变量

修改文件“/etc/profile”来添加环境变量。执行下面命令打开文件。

nano /etc/profile

在文件最后添加下面几行：

export JAVA_HOME=/usr/java/jdk1.6.0_26

export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin

source /etc/profile使变量生效。

验证安装成功

执行命令java –version可得

若不成功则查看环境变量是否设置错误。

Hadoop配置

安装hadoop

以下操作若不能执行，则使用visudo（该命令需要root权限）给hadoop用户添加最高权限，发生权限不足时，在每条命令前加sudo即可。

如图所示。该命令使用vi编辑器，若不熟悉操作则按77G后按i键

添加一行hadoop ALL=(ALL) ALL后按esc键，输入:wq即可保存退出。

注销，切换到hadoop用户下。新建目录sudo mkdir /usr/local/hadoop，

将hadoop-0.21.0.tar.gz解压缩到该目录下，在压缩包所在的文件夹下执行sudo tar -xvzf hadoop-0.21.0.tar.gz –C /usr/local/hadoop

配置环境变量

修改/etc/profile文件，在文件最后添加两行。

export HADOOP_HOME=/usr/local/hadoop/hadoop-0.21.0

export PATH=$HADOOP_HOME/bin:$PATH

配置/usr/local/hadoop/hadoop-0.21.0/conf/hadoop-env.sh文件，在文件最后添加JAVA_HOME环境变量，export JAVA_HOME=/usr/java/jdk1.6.0_26/

配置master和slave

两个文件在/usr/local/hadoop/hadoop-0.21.0/conf/下面，

master文件填写

192.168.1.101（namenode的IP）

slave文件填写

192.168.1.101（datanode的IP）

因为是伪分布，所以都一样，且只有一个。

若为集群，则为

master文件填写

192.168.1.147（namenode的IP）

slave文件填写

192.168.1.103（datanode的IP）

配置三个xml文件

三个xml文件都是在/usr/local/hadoop/hadoop-0.21.0/conf/

配置core-site.xml

创建文件夹mkdir /usr/hadoop/hadoop-0.21.0/tmp

<configuration>
     <property>
        <name>fs.default.name</name>
        <value>hdfs://yeweipeng（你的master机器名）:9000</value>
     </property>
    <property>
        <name>hadoop.tmp.dir</name>
         <value>/usr/hadoop/hadoop-0.21.0/tmp</value>
    </property>

</configuration>

配置 hdfs-site.xml

<configuration>
     <property>
         <name>dfs.replication</name>
         <value>1（datanode的数目）</value>
     </property>

</configuration>

配置 mapred-site.xml

<configuration>
     <property>
        <name>mapred.job.tracker</name>
        <value>yeweipeng（你的master机器名）:9001</value>
     </property>
</configuration>