Hadoop3.0集群搭建
1.集群简介
HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。
HDFS集群负责海量数据的存储,集群中的角色主要有:
NameNode、DataNode、SecondaryNameNode
YARN集群负责海量数据运算时的资源调度,集群中的角色主要有:
ResourceManager、NodeManager
那mapreduce是什么呢?它其实是一个分布式运算编程框架,是应用程序开发包,由用户按照编程规范进行程序开发,后打包运行在HDFS集群上,并且受到YARN集群的资源调度管理。
2.集群部署方式
Hadoop部署方式分三种:
2.1 standalone mode(独立模式)
独立模式又称为单机模式,仅1个机器运行1个java进程,主要用于调试。
2.2 Pseudo-Distributed mode(伪分布式模式)
伪分布模式也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager,但分别启动单独的java进程,主要用于调试。
2.3 Cluster mode(群集模式)
集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。
3.hadoop重新编译
3.1 为什么要编译hadoop?
由于appache给出的hadoop的安装包没有提供带C程序访问的接口,所以我们在使用本地库(本地库可以用来做压缩,以及支持C程序等等)的时候就会出问题,需要对Hadoop源码包进行重新编译。可参考Hadoop源码编译
4.Hadoopn集群安装(已经编译完成的安装包)
集群模式主要用于生产环境部署,需要多台主机,并且这些主机之间可以相互访问,我们在之前搭建好基础环境的三台虚拟机上进行Hadoop的搭建。
4.1 集群规划

4.2 解压Hadoop安装包
上传解压hadoop 3.1.4安装文件
cd /export/software
rz
解压
tar -xvzf hadoop-3.1.4.tar.gz -C ../server
在每个节点中创建用于存放数据的data目录
# NameNode数据
mkdir -p /export/server/hadoop-3.1.4/data/namenode
# DataNode数据
mkdir -p /export/server/hadoo

本文详细介绍了如何搭建Hadoop3.0集群,包括集群的组成部分、部署方式、环境准备、配置文件编辑、集群启动与关闭、一键启动脚本修改以及Windows域名映射,旨在为生产环境提供稳定可靠的Hadoop集群解决方案。
最低0.47元/天 解锁文章
377

被折叠的 条评论
为什么被折叠?



