大数据学习教程SD版第二篇【Hadoop 简介和搭建】

本文链接：https://blog.youkuaiyun.com/qq_41200768/article/details/121697499

该教程详细介绍了Hadoop的三大发行版本、优势、组成，包括HDFS、YARN和MapReduce。接着，讲解了模板机的搭建，包括硬件和软件配置、远程访问工具、环境配置和克隆。最后，重点阐述了Hadoop集群的部署过程，涵盖安装、文件拷贝、SSH免密登录、配置、启动测试、崩溃处理、历史服务器配置、日志聚集功能及常用脚本等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前情提醒：linux基本命令和简单的shell脚本，已Get!

2.hadoop 3.x/2.x

Hadoop 分布式系统基础架构，主要解决数据的存储和计算，现Hadoop广义上指的是Hadoop生态圈

Hadoop 简介

2.1 三大发行版本

Apache 2006
Cloudera CDH 2008
Hortonworks HDP 2011

Hortonworks 和Cloudera 联合，2018推出 CDP

2.2 优势

高可靠性：底层维护多个副本
高扩展性：动态扩展节点，动态删除节点
高效性：并行计算
高容错性：失败任务自动重新分配

2.3 组成

Common : 辅助工具
HDFS: 数据存储
YARN: 资源调度
MapReduce: 计算

2.4 HDFS 文件系统

NameNode[NN] 名称节点
DataNode[DN] 数据节点
Secondary NameNode[2NN] 第二名称节点

2.5 YARN 资源管理工具

ResourceManager[RM] 集群资源管理器
NodeManager[NM] 节点资源管理器
ApplicationMaster[AM] 应用程序
Container 运行程序的资源容器

2.6 MapReduce 计算框架

Map 映射，一系列转换操作
Reduce 汇总

Hadoop 模板机搭建

2.7 模板机搭建

硬件
软件
IP配置

VMware 网络配置
Windows网络配置
Linux主机网络配置[/etc/sysconfig/network-scripts/ifcfg-xxx]

BOOTPROTO='static'

IPADDR=xxx.xxx.xx.xxx
GATEWAY=xxx.xxx.xx.x
DNS1=xxx.xxx.xx.x

主机名配置[/etc/hostname]
主机名称映射配置[/etc/hosts]

ip hostname

重启，使配置生效

2.8 远程访问工具

Xshell+Xftp
Mobaxterm

2.9 模板机环境配置

rpel-release: readhat系列的软件仓库

yum install -y epel-relaease

net-tools: 网络工具包[ifconfig]

yum install -y net-tools

vim:文本编辑器

yum install -y vim

关闭防火墙

systemctl stop firewalld
systemctl disable firewalld.service

添加用户并服务对应权限

useradd xxx
passwd xxx

vim /etc/sudoers

# 在 %wheel 行下添加
xxx ALL=(ALL) NOPASSWD:ALL

卸载自带的JDK

rpm -qa |grep -i java | xargs -n1 rpm -e --nodeps

重启

2.10 模板机克隆

只需修改对应主机的名称和IP即可

Hadoop 集群部署

2.11 Hadoop 安装

安装jdk

# 1.上传安装包
# 2.解压
tar -zxvf xxx -C /xxx/xxx
# 3.配置环境变量

# 这里不在 /etc/profile直接配置环境变量，可以在/etc/profile.d/ 下新建文件，会直接读取
export JAVA_HOME=/xxx/xxx
export PATH=$PATH:$JAVA_HOME/bin

# 检查Ok
java -version

安装hadoop

# 1.上传安装包
# 2.解压
tar -zxvf xxx -C /xxx/xxx
# 3.配置环境变量

# 这里同样不在 /etc/profile直接配置环境变量，可以在/etc/profile.d/ 下新建文件，会直接读取
export HADOOP_HOME=/xxx/xxx
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

# 4.检查OK
hadoop version

2.12 Hadoop 集群文件拷贝

可以在配置SSH免密登录之后在拷贝，这样就不用输入各主机的密码

集群文件拷贝

# 方式一 ：文件推送
scp -r /xxx/xxx  user@hostname:/xxx/xxx
# 方式二 ：文件拉取
scp -r user@hostname:/xxx/xxx  /xxx/xxx
# 方式三 ：文件传输
scp -r user@hostname:/xxx/xxx  user@hostname:/xxx/xxx

集群配置同步

# 同 scp 使用方式类似，只同步差异性文件
rsync -av /xxx/xxx  user@hostname:/xxx/xxx

这里提供了一个集群文件拷贝的脚本

xsync.sh

# 集群之间分发文件

if [[ $# -lt 1 ]]; then
	echo Arguenment Error!
	exit
fi

for host in hadoop102 hadoop103 hadoop104
do
	for file in $@; do
		if [[ -e $file ]]; then
			pdir=$(cd -P $(dirname $file);pwd)
			fname=$(basename $file)
			ssh $host "mkdir -p $pdir"
			rsync -av $pdir/$fname $host:$pdir
		else
			echo $file not exits!
		fi
	done
done

注意：有可能Linux主机上没有rsync工具，直接通过yum安装即可

yum install -y rsync

2.13 Hadoop SSH免密登录配置

ssh-keygen -t rsa

拷贝公钥

ssh-copy-id hostname  # 自身也要配置

集群每台主机重复此操作

2.14 Hadoop 集群配置

Hadoop集群规划

	hadoop102	hadoop103	hadoop104
HDFS	NN、DN	DN	2NN
YARN	NM	RM、NM	NM

四大核心配置文件配置

core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://hadoop102:8020</value>
</property>
<property>
  <name>hadoop.tmp.dir</name>
  <value>/opt/module/hadoop-2.7.1/data</value>
</property>
</configuration>

hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
  <name>dfs.namenode.http-address</name>
  <value>hadoop102:9870</value>
</property>
<property>
  <name>dfs.namenode.secondary.http-address</name>
  <value>hadoop104:9868</value>
</property>
</configuration>

yarn-site.xml

<?xml version="1.0"?>

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop103</value>
  </property>
</configuration>

mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>
</configuration>

使用2.12的xsync.sh脚本直接同步即可

2.15 Hadoop 集群启动测试

配置workers/slaves

# hadoop 2.x 的叫做salves ,hadoop3.x 的叫做 workers

hadoop102
hadoop103
hadoop104

# 配完别忘了同步

初次启动需初始化

hdfs namenode -format

启动

# 在namenode节点启动hdfs
start-dfs.sh
# 在resourcemanager节点启动yarn
start-yarn.sh

webUI查看

# hdfs
192.168.10.102:9870
# yarn
192.168.10.103:8088

文件实际存储地址：默认保存三个副本

${HADOOP_HOME}/data/dfs/data/current/BP-1778870268-192.168.10.102-1638496036398/current/finalized/subdir0/subdir0

大文件还原：

hadoop 文件分块存储，hadoop2.x一个块最大128MB，只需要把块文件压缩在一起，再解压即可！

2.16 Hadoop集群崩溃处理

先要清除历史数据，再格式化【Namenode 和Datamode都有VERSION】

把hadoop相关进程关掉
删除三台hadoop目录下的 data/ 和logs/
格式化namenode
启动

2.17 Hadoop 历史服务器配置

修改mapred-site.xml

<property>
  <name>mapreduce.jobhistory.address</name>
  <value>hadoop102:10020</value>
  <description>MapReduce JobHistory Server IPC host:port</description>
</property>
<property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>hadoop102:19888</value>
  <description>MapReduce JobHistory Server Web UI host:port</description>
</property>

同步配置文件
重启yarn，再启动历史服务器

# hadoop3.x
mapred --daemon start historyserver
# hadoop2.x
mr-jobhistory-daemon.sh start historyserver

查看进程是否启动

jps

查看JobHistory

# 点击yarn界面对应application的history链接即可跳转日志服务

注意：jobhistory无法跳转时，观察地址栏url可以看出，需要配置windows的ip和主机映射：

文件路径 C:\Windows\System32\drivers\etc\hosts

192.168.10.102 hadoop102

192.168.10.103 hadoop103

192.168.10.104 hadoop104

2.18 Hadoop 日志聚集功能配置

修改yarn-site.xml

  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
  </property>
  <property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
  </property>

同步配置
关闭yarn和jobhistory进程
启动yarn和jobhistory进程

2.19 Hadoop 编写常用脚本

Hadoop集群启动停止脚本

hadoop.sh

# hadoop 集群启动停止脚本

if [[ $# -lt 1 ]]; then
	echo "Argument Error"
	exit
fi

case $1 in
	"start" )
				echo "------start hadoop cluster------"
				echo "------start hdfs------"
				ssh hadoop102 "start-dfs.sh"
				echo "start yarn"
				ssh hadoop103 "start-yarn.sh"
				echo "------start historyserver------"
				ssh hadoop103 "mr-jobhistory-daemon.sh start historyserver"
	;;
	"stop" )
				echo "------stop hadoop cluster------"
				echo "------stop historyserver------"
				ssh hadoop103 "mr-jobhistory-daemon.sh stop historyserver"
				echo "------stop yarn------"
				ssh hadoop103 "stop-yarn.sh"
				echo "------stop hdfs------"
				ssh hadoop102 "stop-dfs.sh"
	;;
	* )
				echo "Argument Error"
	;;
esac

Haoop集群jps进程查看脚本

jps.sh

# hadoop 集群 jps 查看进程
for host in hadoop102 hadoop103 hadoop104; do
	echo "------$host-------"
	ssh $host jps
done

2.20 Hadoop 常用端口号

	hadoop3.x	hadoop2.x
HDFS 内部端口	8020/9000/9820	8020/9000
HDFS web端口	9870	50070
Yarn web端口	8088	8088
Jobhistory web端口	19888	19888

2.21 Hadoop 常用配置文件

hadoop3.x	hadoop2.x
core-site.xml	core-site.xml
hdfs-site.xml	hdfs-site.xml
yarn-site.xml	yarn-site.xml
mapred-site.xml	mapred-site.xml
workers	slaves

2.22 Hadoop 集群时间同步配置

俗称“对表”，在服务器不能连接外网时，需要配置时间同步。由于服务器以联网，此处可以不配置了！

开启主时钟节点ntpd服务，并设置开机自启

systemctl status ntpd
systemctl start ntpd
systemctl is-enabled ntpd

修改ntp.conf 配置文件

# 设置集群主时钟节点可被其他节点访问
restict 192.168.10.0 mask 255.255.255.0 nomodify notrap
# 设置采用本机时钟，不连接互联网时钟,把joining the pool下方的行注释掉

# 设置当主时钟节点断网时，依然可以提供时间同步任务
server 127.127.1.0
fudge 127.127.1.0 stratum 10

关闭其余节点的ntpd服务和自启动
在其余节点设置定时任务定时同步集群时间

crontab -e

*/1 * * * * /usr/sbin/ntpdate hadoop102