Hadoop3.0集群搭建

最新推荐文章于 2024-04-12 12:48:00 发布

原创

最新推荐文章于 2024-04-12 12:48:00 发布 · 740 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #big data

本文详细介绍了如何搭建Hadoop3.0集群，包括集群的组成部分、部署方式、环境准备、配置文件编辑、集群启动与关闭、一键启动脚本修改以及Windows域名映射，旨在为生产环境提供稳定可靠的Hadoop集群解决方案。

Hadoop3.0集群搭建

1.集群简介

HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。
HDFS集群负责海量数据的存储，集群中的角色主要有：
NameNode、DataNode、SecondaryNameNode
YARN集群负责海量数据运算时的资源调度，集群中的角色主要有：
ResourceManager、NodeManager
那mapreduce是什么呢？它其实是一个分布式运算编程框架，是应用程序开发包，由用户按照编程规范进行程序开发，后打包运行在HDFS集群上，并且受到YARN集群的资源调度管理。

2.集群部署方式

Hadoop部署方式分三种：

2.1 standalone mode（独立模式）

独立模式又称为单机模式，仅1个机器运行1个java进程，主要用于调试。

2.2 Pseudo-Distributed mode（伪分布式模式）

伪分布模式也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager，但分别启动单独的java进程，主要用于调试。

2.3 Cluster mode（群集模式）

集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下，主节点和从节点会分开部署在不同的机器上。

3.hadoop重新编译

3.1 为什么要编译hadoop？

由于appache给出的hadoop的安装包没有提供带C程序访问的接口，所以我们在使用本地库（本地库可以用来做压缩，以及支持C程序等等）的时候就会出问题,需要对Hadoop源码包进行重新编译。可参考Hadoop源码编译

4.Hadoopn集群安装`（已经编译完成的安装包）`

集群模式主要用于生产环境部署，需要多台主机，并且这些主机之间可以相互访问，我们在之前搭建好基础环境的三台虚拟机上进行Hadoop的搭建。

4.1 集群规划

10G/ 2cores 7G / 2cores 7G / 2coresnode1.itcast.cn node2.itcast.cn node3.itcast.cnHDFS集群守护进程 NameNode √ × ×SecondaryNameNode × √ ×DataNode √ √ √YARN集群守护进程 ResourceManager √ × ×NodeManager √ √ √

4.2 解压Hadoop安装包

上传解压hadoop 3.1.4安装文件
cd /export/software
rz

解压
tar -xvzf hadoop-3.1.4.tar.gz -C ../server

 在每个节点中创建用于存放数据的data目录
# NameNode数据
mkdir -p /export/server/hadoop-3.1.4/data/namenode
# DataNode数据
mkdir -p /export/server/hadoo