Hadoop集群环境的搭建

本文详细介绍如何在两台虚拟机上搭建Hadoop集群的过程,包括主机名及网络配置、HDFS和MapReduce配置等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我们一般使用hadoop都会在虚拟机上面,所以我针对的都是在虚拟机上的hadoop集群。

准备阶段

1,:将原来搭建的hadoop单机版环境的虚拟机拷贝一份(详细信息http://blog.youkuaiyun.com/fullyfang/article/details/9391835).

2:准备两台服务器,如下:

         机器名                 IP地址                                  作用

     hadoop.main             192.168.0.105                运行 NameNode,JobTracker,DataNode,TaskTracker

     hadoop.slave            192.168.0.104                            运行 DataNode,TaskTracker

     注:IP地址的和用户名的设置根据自己实际情况而定且两台主机必须使用相同的用户名运行hadoop


实践阶段

3:修改主机的名称 输入 vi /etc/hostname,将hostname修改为hadoop.main  按x保存后退出。

      再输入:vi /etc/hosts修改网络,输入:

      192.168.0.105           hadoop.main localhost

      192.168.0.104           hadoop.slave(我的是redhat,可能不同的linux显示数据不一样,视具体情况而定), 按x保存后退出。

4:修改另一台服务器的主机名  

 vi /etc/hostname,将hostname修改为hadoop.slave 按x保存后退出。

      再输入:vi /etc/hosts修改网络,输入:

      192.168.0.105           hadoop.main

      192.168.0.104           hadoop.slave  localhost ,按x保存后退出。

5:修改2台主机的core-site.xml,配置HDFS的地址和端口号
   vi conf/core-site.xml


   <configuration>
   <property>
       <name>fs.default.name</name>
       <value>hdfs://hadoop.main:9000</value>   
   </property> 
   </configuration>

6:修改2台主机的MapReduce的配置文件,配置的是JobTracker的地址和端口 
   vi conf/mapred-site.xml

   <configuration>
   <property>
       <name>mapred.job.tracker</name>
       <value>hadoop.main:9001</value>
   </property>
   </configuration>

7,修改2台主机中的hadoop配置文件masters,输入vi  /home/hadoop/cof/masters
   输入:hadoop.main,按x保存后退出。

8,修改2台主机中的hadoop配置文件slaves,输入vi  /home/hadoop/cof/slaves
   hadoop.main
   hadoop.slave,按x保存后退出。

9:在haddop.main节点中的hadoop安装目录下运行
   bin/hadoop namenode -format

10:启动hadoop
   bin/start-all.sh

注:5—9步两台机器的配置和操作是一样的。

上述步骤完成之后,在浏览器中输入:http://localhost:50070/ 后打开hdfs页面

点击Live Nodes 。

显示:Live Datanodes : 2说明集群环境搭建成功。


### Hadoop集群环境搭建教程 Hadoop集群环境搭建涉及多个步骤,包括但不限于安装依赖软件、配置文件编辑以及网络设置等。以下是详细的搭建过程: #### 1. 系统环境准备 在开始之前,确保所有节点的操作系统是兼容的,并完成以下基础操作: - 更新系统软件包:`yum update -y`[^2]。 - 安装必要的工具,例如 `wget` 和 `vim`:`yum install -y wget vim`[^2]。 #### 2. 配置主机名解析 编辑 `/etc/hosts` 文件,添加所有集群节点的主机名与IP地址映射。例如: ```bash 192.168.1.101 node1 192.168.1.102 node2 192.168.1.103 node3 ``` 此步骤确保各节点可以通过主机名互相访问[^2]。 #### 3. SSH免密登录配置 为简化管理,需配置主节点到其他节点的SSH免密登录。具体步骤如下: - 在主节点生成SSH密钥对:`ssh-keygen -t rsa`。 - 将公钥分发到所有从节点:`ssh-copy-id user@node2` 和 `ssh-copy-id user@node3`[^2]。 - 测试是否可以无密码登录:`ssh node2` 和 `ssh node3`。 #### 4. 下载并解压Hadoop 下载Hadoop安装包并解压到指定目录,例如 `/opt/hadoop`: ```bash wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz tar -zxvf hadoop-3.3.1.tar.gz -C /opt/ ln -s /opt/hadoop-3.3.1 /opt/hadoop ``` 此步骤完成后,Hadoop将被安装在 `/opt/hadoop` 目录下[^1]。 #### 5. 配置Hadoop环境变量 编辑 `/etc/profile` 文件,添加以下内容以设置Hadoop环境变量: ```bash export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` 然后使配置生效:`source /etc/profile`[^1]。 #### 6. 编辑Hadoop核心配置文件 进入Hadoop配置目录并编辑相关文件: - **hadoop-env.sh**:设置Java路径。编辑 `/opt/hadoop/etc/hadoop/hadoop-env.sh` 文件,添加以下内容: ```bash export JAVA_HOME=/usr/java/latest ``` 此步骤确保Hadoop能够正确识别JDK环境[^1]。 - **core-site.xml**:配置HDFS默认存储位置。添加以下XML片段: ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://node1:9000</value> </property> </configuration> ``` - **hdfs-site.xml**:配置HDFS副本数和存储目录。添加以下XML片段: ```xml <configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/data/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/data/hdfs/datanode</value> </property> </configuration> ``` - **mapred-site.xml**:配置MapReduce框架。如果文件不存在,先复制模板文件: ```bash cp mapred-site.xml.template mapred-site.xml ``` 然后添加以下内容: ```xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` - **yarn-site.xml**:配置YARN资源管理器。添加以下内容: ```xml <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>node1</value> </property> </configuration> ``` #### 7. 格式化NameNode 在主节点执行以下命令以初始化HDFS文件系统: ```bash hdfs namenode -format ``` 此命令仅需在首次启动时执行一次[^1]。 #### 8. 启动Hadoop集群 依次启动HDFS和YARN服务: ```bash start-dfs.sh start-yarn.sh ``` 通过浏览器访问HDFS和YARN管理界面以验证服务状态: - HDFS Web UI: `http://node1:9870` - YARN Web UI: `http://node1:8088` #### 9. 关闭防火墙 为避免防火墙干扰通信,关闭所有节点的防火墙: ```bash systemctl stop firewalld systemctl disable firewalld ``` 此外,确保SELinux处于关闭状态:`setenforce 0`。 --- ### 注意事项 - 确保所有节点的时间同步,可使用NTP服务。 - 检查Hadoop版本与操作系统兼容性。 - 根据实际需求调整配置文件中的参数。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值