如何用三台服务器配置分布式hadoop

将hadoop的资源分为下图所示

三台服务器的任务分布

如上图所示,我们需要将namenode 和zkfc(FailoverController)部署在第一第二台服务器上,在第一台服务器上部署动yarn,第三台服务器中部署resourcemanager,并将datanode在三台服务器中部署。

1. 关闭防火墙

2. 修改主机名

3. 配置hosts文件。将需要搭建集群的主机全部配置到hosts文件中,如

192.168.32.138 cloud01
192.168.32.139 cloud02
192.168.32.140 cloud03

4. 配置免密登录

ssh-keygen 

一路回车,然后将秘钥发送给另一台服务器

ssh-copy-id cloud02

然后输入cloud02的密码,将第一台服务器的key发送给第二第三台,同理第二台发送给第一第三,第三台发送给第一第二台。

5. 安装jdk

6. 安装zookeeper

7. 配置Hadoop

1. 编辑hadoop-env.sh,并且重新生效
2. 编辑core-site.xml里的 configuration
<!--指定hdfs的nameservice,为整个集群起一个别名-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://ns</value>
</property>
<!--指定Hadoop数据临时存放目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/software/hadoop-2.7.1/tmp</value>
</property>
<!--指定zookeeper的存放地址-->
<property>
集群规划: 主机名 IP 安装的软件 运行的进程 weekend01 192.168.1.201 jdk、hadoop NameNode、DFSZKFailoverController(zkfc) weekend02 192.168.1.202 jdk、hadoop NameNode、DFSZKFailoverController(zkfc) weekend03 192.168.1.203 jdk、hadoop ResourceManager weekend04 192.168.1.204 jdk、hadoop ResourceManager weekend05 192.168.1.205 jdk、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain weekend06 192.168.1.206 jdk、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain weekend07 192.168.1.207 jdk、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain 说明: 1.在hadoop2.0中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。Active NameNode对外提供服务,而Standby NameNode则不对外提供服务 仅同步active namenode的状态,以便能够在它失败时快速进行切换。 hadoop2.0官方提供了两种HDFS HA的解决方案,一种是NFS,另一种是QJM。这里我们使用简单的QJM。在该方案中,主备NameNode之间通过一组JournalNode同步元数据 信息,一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode 这里还配置了一个zookeeper集群,用于ZKFC(DFSZKFailoverController)故障转移,当Active NameNode挂掉了,会自动切换Standby NameNode为standby状态 2.hadoop-2.2.0中依然存在一个问题,就是ResourceManager只有一个,存在单点故障,hadoop-2.4.1解决了这个问题,有两个ResourceManager,一个是Active,一个 是Standby,状态由zookeeper进行协调
要使用三台服务器搭建一个完全分布式Hadoop集群,你需要按照以下步骤进行操作: 1. 设置主机名和IP:在每服务器上设置唯一的主机名和IP地址。 2. 配置主机的映射:在每服务器配置/etc/hosts文件,将每服务器的主机名和IP地址进行映射。 3. SSH免密登录:在每服务器上生成SSH密钥对,并将公钥复制到其他服务器上,以实现服务器之间的免密登录。 4. 关闭防火墙:在每服务器上关闭防火墙,以确保Hadoop集群的正常通信。 5. 关闭SELinux:在每服务器上禁用SELinux,以避免与Hadoop的正常运行产生冲突。 6. 安装JDK:在每服务器上安装JDK,并设置JAVA_HOME环境变量。 7. 设置时间同步服务:在每服务器上安装并配置NTP时间同步服务,以确保集群中所有服务器的时间同步。 8. 下载和安装Hadoop:在每服务器上下载Hadoop的二进制文件,并解压到指定目录。你可以使用wget命令下载Hadoop的tar.gz文件,然后使用tar命令解压。 9. 配置Hadoop环境变量:在每服务器上编辑hadoop-env.sh文件,设置Hadoop环境变量,如JAVA_HOME、HADOOP_HOME等。 10. 配置Hadoop集群:在每服务器上编辑core-site.xml、hdfs-site.xml和yarn-site.xml等配置文件,设置Hadoop集群的相关参数,如文件系统地址、副本数量、资源管理器地址等。 11. 启动Hadoop集群:在一服务器上启动NameNode和ResourceManager,然后在其他服务器上启动DataNode和NodeManager。 请注意,以上步骤仅为概括,并不包含具体的配置细节。在实际操作中,你需要根据你的服务器环境和需求进行相应的配置。详细的操作步骤配置参数可以参考Hadoop官方文档或其他教程资源。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [hadoop2.7.2分布式集群搭建(三台)](https://blog.youkuaiyun.com/PeiBoos/article/details/125914812)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [3机器配置hadoop集群_Hadoop+Hbase 分布式集群架构](https://blog.youkuaiyun.com/wanghengwhwh/article/details/128567974)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值