Hadoop多节点集群搭建

Hadoop多节点集群搭建


版权声明:

本文为博主学习整理原创文章,如有不正之处请多多指教。

未经博主允许不得转载。https://blog.youkuaiyun.com/qq_42595261/article/details/84070436


准备环境:JDK安装和配置

 

本集群设置为5

节点IP

Namenode

Datanode

XX.XX.XX.177

XX.XX.XX.184

 

XX.XX.XX.162

 

XX.XX.XX.169

 

XX.XX.XX.170

 

 

①解压

tar -zxvf hadoop-2.6.5.tar.gz  -C /path  -C是指定解压的目录

② 配置环境变量

vi /etc/profile

末尾追加(Hadoop的环境变量需要配置两个,binsbin)

export HADOOP_HOME=

export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

配置文件生效

source /etc/profile

Hadoop的所有配置文件都在Hadoopd解压目录中的/etc/hadoop/目录下,并不是系统的目录/etc目录下。

③修改hadoop-evn.sh

找到export JAVA_HOME=${JAVA_HOME}将其修改为自己JDK目录

④修改core-site.xml

注意:实验室环境的虚拟机给定的ip只能用于登录,配置中如果需要配置ip的话,就需要配置自己的虚拟ip。

使用ip addr查看虚拟ip:

结果如下:

 

上面红框中的内容就是虚拟ip。每个人的虚拟ip不一样

<property>

<name>fs.defaultFS</name>

<value>hdfs://XX.XX.XX.177:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/opt/hadoopDir/tmp/data</value>

</property>

 

⑤      修改hdfs-site.xml

#几台datanode就可以设置为几个副本。最大副本不能超过datanode台数

<property>

<name>dfs.replication</name>

<value>5</value>

</property>

#下面这两个可以不用配置,集群环境可以保留默认值

<property>

<name>dfs.namenode.name.dir</name>

<value>/opt/hadoopDir/tmp/namenodeData</value>

</property>

 

<property>

<name>dfs.datanode.data.dir</name>

<value>/opt/hadoopDir/tmp/datanodeData</value>

</property>

 

修改slaves文件

datanode节点的ip写入该文件

XX.XX.XX.177

XX.XX.XX.184

XX.XX.XX.162

XX.XX.XX.169

XX.XX.XX.170

⑦ 将hadoop发送到其他四台主机

scp -r /usr/local/apps/hadoop-2.6.5/etc/hadoop root@ XX.XX.XX.184:/usr/local/apps/ etc/

scp -r /usr/local/apps/hadoop-2.6.5/etc/hadoop root@ XX.XX.XX.162:/usr/local/apps/ etc/

scp -r /usr/local/apps/hadoop-2.6.5/etc/hadoop root@ XX.XX.XX.169:/usr/local/apps/ etc/

scp -r /usr/local/apps/hadoop-2.6.5/etc/hadoop root@ XX.XX.XX.170:/usr/local/apps/ etc/

⑧启动Hadoop

首次启动需要格式化namenode

需要注意的是,如果第一次初始化之后,需要再次初始化,需要将某些文件删除,需要删除的文件路径:/opt/hadoopDir/tmp/data

/tmp目录下设计到hadoop的并且以.pid结尾的文件

还有就是在data中的配置的路径下面的所有的东西都要删除。

上面的东西删除之后再重新初始化即可。

hadoop namenode -format

格式化之后进行启动

start-dfs.sh

安装过程需要输入密码,密码是系统密码

启动成功后查看进程

177节点:

184、162、169和170节点

Datanode

JPS

HDFS界面介绍

在linux内部可以通过curl http:// XX.XX.XX.177:50070查看是否启动成功

在windows上面直接访问网站即可 http:// XX.XX.XX.177:50070

 

 


 

 

搭建 Hadoop 三节点集群需要遵循一系列标准化的步骤,包括环境准备、系统配置、软件安装和集群初始化等环节。以下是完整的搭建流程: ### 环境准备 1. **规划集群角色** 三节点集群通常包括一个主节点(NameNode、ResourceManager)和两个从节点(DataNode、NodeManager)。主节点负责管理文件系统和资源调度,从节点负责存储数据和执行任务。 2. **操作系统安装与配置** 所有节点需安装相同版本的 Linux 操作系统(如 CentOS 或 Ubuntu),并创建统一的用户账户(如 hadoop 用户),用于运行 Hadoop 相关服务[^1]。 3. **网络配置** 为每个节点分配静态 IP 地址,并设置主机名(如 hadoop001、hadoop002、hadoop003),确保主节点与从节点之间可以通过主机名相互解析。编辑 `/etc/hosts` 文件,添加如下内容(根据实际 IP 和主机名调整): ```text 192.168.1.101 hadoop001 192.168.1.102 hadoop002 192.168.1.103 hadoop003 ``` 4. **配置 SSH 免密登录** 在主节点生成 SSH 密钥并分发公钥至所有节点(包括本地),实现无密码登录。验证方式为: ```bash ssh hadoop002 ssh hadoop003 ``` 5. **关闭防火墙** 所有节点关闭防火墙以确保节点间通信畅通: ```bash systemctl stop firewalld systemctl disable firewalld ``` 6. **安装 JDK** Hadoop 依赖 Java 环境,建议安装 JDK 1.8 或更高版本,并设置 `JAVA_HOME` 环境变量。 ### 安装 Hadoop 1. **下载与解压** 下载 Hadoop 安装包(如 hadoop-3.3.6.tar.gz),解压并创建软链接以便后续版本管理: ```bash tar -xzf hadoop-3.3.6.tar.gz ln -s /usr/local/hdp/hadoop-3.3.6 /usr/local/hadoop ``` 2. **配置环境变量** 在 `/etc/profile.d/hadoop.sh` 中添加以下内容: ```bash export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` 然后执行: ```bash source /etc/profile.d/hadoop.sh ``` ### 配置 Hadoop 1. **配置 `hadoop-env.sh`** 设置 `JAVA_HOME`: ```bash export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk ``` 2. **配置 `core-site.xml`** 设置默认文件系统和临时目录: ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop001:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/apps/hadoop/tmp</value> </property> </configuration> ``` 3. **配置 `hdfs-site.xml`** 设置副本数量(在三节点集群中通常为 3): ```xml <configuration> <property> <name>dfs.replication</name> <value>3</value> </property> </configuration> ``` 4. **配置 `yarn-site.xml`** 设置 ResourceManager 地址: ```xml <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>hadoop001</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> ``` 5. **配置 `mapred-site.xml`** 设置 MapReduce 框架运行在 YARN 上: ```xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` 6. **配置 `workers` 文件** 列出所有从节点主机名: ```text hadoop002 hadoop003 ``` ### 分发配置文件 将主节点上配置好的 Hadoop 文件夹和配置文件同步到所有从节点,确保所有节点的 Hadoop 配置一致。 ### 启动集群 1. **格式化 HDFS 文件系统**(仅在首次启动时执行): ```bash hdfs namenode -format ``` 2. **启动 Hadoop 集群**: ```bash start-dfs.sh start-yarn.sh ``` 3. **验证集群状态** 使用 `jps` 命令查看各节点进程是否正常启动,主节点应包含 `NameNode`、`ResourceManager`,从节点应包含 `DataNode`、`NodeManager`。 4. **访问 Web 界面验证** 打开浏览器访问 `http://hadoop001:9870`(HDFS 管理界面)和 `http://hadoop001:8088`(YARN 管理界面)查看集群运行状态[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值