Hadoop集群配置及启动

米有奶油的小蛋糕

已于 2022-05-14 00:18:27 修改

阅读量5.6k

点赞数 3

CC 4.0 BY-SA版权

文章标签： hadoop mapreduce hdfs

于 2022-05-13 17:27:22 首次发布

本文链接：https://blog.youkuaiyun.com/m0_51742725/article/details/124755887

本文详细介绍了如何在多台服务器上搭建分布式Hadoop集群，涉及配置文件设置（如NameNode地址、HDFS存储路径等）、集群脚本分发、格式化NameNode、启动HDFS和YARN服务，以及Web端资源管理器查看。确保集群完整运行并提供Web访问验证。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、搭建完全分布式hadoop集群，我们先来实现如下集群的配置：
在这里插入图片描述
配置前我们介绍一下配置文件：
以下所有的配置文件都在hadoop安装目录下etc文件中，路径如下：
/opt/module/hadoop-3.1.3/etc/hadoop/

我们需要配置的文件如下：

core-site.xml ：1、NameNode的地址 2、Hadoop数据存储目录
在这里插入图片描述

hdfs-site.xml ：1、NameNode和2NN对外web访问地址
在这里插入图片描述

yarn-site.xml：1、指定MapReduce的协议 2、指定ResourceManger的地址 3、添加Maperd环境变量的继承（此项hadoop3.2以上版本可以无需指定）
在这里插入图片描述

mapred-site.xml ：1、指定MapReduce程序运行在Yarn上
在这里插入图片描述

好了，到现在为止，我们搭建了一台服务器，其他两台的配置我们用集群分发脚本分发一下（脚本见之前的文章）。
在这里插入图片描述
二、启动集群

1、格式化NameNode

如果是第一次启动集群，我们在含有NameNode的服务器上先格式化NameNode（注意：格式化 NameNode ，会产生新的集群 id ，导致 NameNode 和 DataNode 的集群 id 不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化 NameNode 的话，一定要先停止 namenode 和 datanode 进程，并且要删除所有机器的 data 和 logs 目录，然后再进行格式化。及停服务、删文件、格式化）