大数据学习教程SD版第二篇【Hadoop 简介和搭建】

该教程详细介绍了Hadoop的三大发行版本、优势、组成,包括HDFS、YARN和MapReduce。接着,讲解了模板机的搭建,包括硬件和软件配置、远程访问工具、环境配置和克隆。最后,重点阐述了Hadoop集群的部署过程,涵盖安装、文件拷贝、SSH免密登录、配置、启动测试、崩溃处理、历史服务器配置、日志聚集功能及常用脚本等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前情提醒:linux基本命令和简单的shell脚本,已Get!

2.hadoop 3.x/2.x

Hadoop 分布式系统基础架构,主要解决数据的存储和计算,现Hadoop广义上 指的是Hadoop生态圈

Hadoop 简介

2.1 三大发行版本

  1. Apache 2006
  2. Cloudera CDH 2008
  3. Hortonworks HDP 2011

Hortonworks 和Cloudera 联合,2018推出 CDP

2.2 优势

  1. 高可靠性:底层维护多个副本
  2. 高扩展性:动态扩展节点,动态删除节点
  3. 高效性:并行计算
  4. 高容错性:失败任务自动重新分配

2.3 组成

  1. Common : 辅助工具
  2. HDFS: 数据存储
  3. YARN: 资源调度
  4. MapReduce: 计算

2.4 HDFS 文件系统

  1. NameNode[NN] 名称节点

  2. DataNode[DN] 数据节点

  3. Secondary NameNode[2NN] 第二名称节点

2.5 YARN 资源管理工具

  1. ResourceManager[RM] 集群资源管理器

  2. NodeManager[NM] 节点资源管理器

  3. ApplicationMaster[AM] 应用程序

  4. Container 运行程序的资源容器

2.6 MapReduce 计算框架

  1. Map 映射,一系列转换操作

  2. Reduce 汇总

Hadoop 模板机搭建

2.7 模板机搭建

  1. 硬件
  2. 软件
  3. IP配置
  • VMware 网络配置
  • Windows网络配置
  • Linux主机网络配置[/etc/sysconfig/network-scripts/ifcfg-xxx]
BOOTPROTO='static'

IPADDR=xxx.xxx.xx.xxx
GATEWAY=xxx.xxx.xx.x
DNS1=xxx.xxx.xx.x
  1. 主机名配置[/etc/hostname]
  2. 主机名称映射配置[/etc/hosts]
ip hostname
  1. 重启,使配置生效

2.8 远程访问工具

  1. Xshell+Xftp
  2. Mobaxterm

2.9 模板机环境配置

  1. rpel-release: readhat系列的软件仓库
yum install -y epel-relaease
  1. net-tools: 网络工具包[ifconfig]
yum install -y net-tools
  1. vim:文本编辑器
yum install -y vim
  1. 关闭防火墙
systemctl stop firewalld
systemctl disable firewalld.service
  1. 添加用户并服务对应权限
useradd xxx
passwd xxx

vim /etc/sudoers

# 在 %wheel 行下添加
xxx ALL=(ALL) NOPASSWD:ALL
  1. 卸载自带的JDK
rpm -qa |grep -i java | xargs -n1 rpm -e --nodeps
  1. 重启

2.10 模板机克隆

只需修改对应主机的名称和IP即可

Hadoop 集群部署

2.11 Hadoop 安装

  1. 安装jdk
# 1.上传安装包
# 2.解压
tar -zxvf xxx -C /xxx/xxx
# 3.配置环境变量

# 这里不在 /etc/profile直接配置环境变量,可以在/etc/profile.d/ 下新建文件,会直接读取
export JAVA_HOME=/xxx/xxx
export PATH=$PATH:$JAVA_HOME/bin

# 检查Ok
java -version
  1. 安装hadoop
# 1.上传安装包
# 2.解压
tar -zxvf xxx -C /xxx/xxx
# 3.配置环境变量

# 这里同样不在 /etc/profile直接配置环境变量,可以在/etc/profile.d/ 下新建文件,会直接读取
export HADOOP_HOME=/xxx/xxx
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

# 4.检查OK
hadoop version

2.12 Hadoop 集群文件拷贝

可以在配置SSH免密登录之后在拷贝,这样就不用输入各主机的密码

  1. 集群文件拷贝
# 方式一 :文件推送
scp -r /xxx/xxx  user@hostname:/xxx/xxx
# 方式二 :文件拉取
scp -r user@hostname:/xxx/xxx  /xxx/xxx
# 方式三 :文件传输
scp -r user@hostname:/xxx/xxx  user@hostname:/xxx/xxx
  1. 集群配置同步
# 同 scp 使用方式类似,只同步差异性文件
rsync -av /xxx/xxx  user@hostname:/xxx/xxx

这里提供了一个集群文件拷贝的脚本

xsync.sh

# 集群之间分发文件

if [[ $# -lt 1 ]]; then
	echo Arguenment Error!
	exit
fi

for host in hadoop102 hadoop103 hadoop104
do
	for file in $@; do
		if [[ -e $file ]]; then
			pdir=$(cd -P $(dirname $file);pwd)
			fname=$(basename $file)
			ssh $host "mkdir -p $pdir"
			rsync -av $pdir/$fname $host:$pdir
		else
			echo $file not exits!
		fi
	done
done

注意:有可能Linux主机上没有rsync工具,直接通过yum安装即可

yum install -y rsync

2.13 Hadoop SSH免密登录配置

  1. 进入家目录,生成密钥对
ssh-keygen -t rsa
  1. 拷贝公钥
ssh-copy-id hostname  # 自身也要配置
  1. 集群每台主机重复此操作

2.14 Hadoop 集群配置

  1. Hadoop集群规划
hadoop102hadoop103hadoop104
HDFSNN、DNDN2NN
YARNNMRM、NMNM
  1. 四大核心配置文件配置
  • core-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://hadoop102:8020</value>
</property>
<property>
  <name>hadoop.tmp.dir</name>
  <value>/opt/module/hadoop-2.7.1/data</value>
</property>
</configuration>
  • hdfs-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
  <name>dfs.namenode.http-address</name>
  <value>hadoop102:9870</value>
</property>
<property>
  <name>dfs.namenode.secondary.http-address</name>
  <value>hadoop104:9868</value>
</property>
</configuration>
  • yarn-site.xml
<?xml version="1.0"?>

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop103</value>
  </property>
</configuration>
  • mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>
</configuration>
  1. 使用2.12的xsync.sh脚本直接同步即可

2.15 Hadoop 集群启动测试

  1. 配置workers/slaves

    # hadoop 2.x 的叫做salves ,hadoop3.x 的叫做 workers
    
    hadoop102
    hadoop103
    hadoop104
    
    # 配完别忘了同步
    
  2. 初次启动需初始化

hdfs namenode -format
  1. 启动
# 在namenode节点启动hdfs
start-dfs.sh
# 在resourcemanager节点启动yarn
start-yarn.sh
  1. webUI查看
# hdfs
192.168.10.102:9870
# yarn
192.168.10.103:8088

文件实际存储地址:默认保存三个副本

${HADOOP_HOME}/data/dfs/data/current/BP-1778870268-192.168.10.102-1638496036398/current/finalized/subdir0/subdir0

大文件还原:

hadoop 文件分块存储,hadoop2.x一个块最大128MB,只需要把块文件压缩在一起,再解压即可!

2.16 Hadoop集群崩溃处理

先要清除历史数据,再格式化【Namenode 和Datamode都有VERSION】

  1. 把hadoop相关进程关掉
  2. 删除三台hadoop目录下的 data/ 和logs/
  3. 格式化namenode
  4. 启动

2.17 Hadoop 历史服务器配置

  1. 修改mapred-site.xml
<property>
  <name>mapreduce.jobhistory.address</name>
  <value>hadoop102:10020</value>
  <description>MapReduce JobHistory Server IPC host:port</description>
</property>
<property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>hadoop102:19888</value>
  <description>MapReduce JobHistory Server Web UI host:port</description>
</property>
  1. 同步配置文件

  2. 重启yarn,再启动历史服务器

# hadoop3.x
mapred --daemon start historyserver
# hadoop2.x
mr-jobhistory-daemon.sh start historyserver
  1. 查看进程是否启动
jps
  1. 查看JobHistory
# 点击yarn界面对应application的history链接即可跳转日志服务

注意:jobhistory无法跳转时,观察地址栏url可以看出,需要配置windows的ip和主机映射:

文件路径 C:\Windows\System32\drivers\etc\hosts

192.168.10.102 hadoop102

192.168.10.103 hadoop103

192.168.10.104 hadoop104

2.18 Hadoop 日志聚集功能配置

  1. 修改yarn-site.xml
  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
  </property>
  <property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
  </property>
  1. 同步配置

  2. 关闭yarn和jobhistory进程

  3. 启动yarn和jobhistory进程

2.19 Hadoop 编写常用脚本

  1. Hadoop集群启动停止脚本

hadoop.sh

# hadoop 集群启动停止脚本

if [[ $# -lt 1 ]]; then
	echo "Argument Error"
	exit
fi

case $1 in
	"start" )
				echo "------start hadoop cluster------"
				echo "------start hdfs------"
				ssh hadoop102 "start-dfs.sh"
				echo "start yarn"
				ssh hadoop103 "start-yarn.sh"
				echo "------start historyserver------"
				ssh hadoop103 "mr-jobhistory-daemon.sh start historyserver"
	;;
	"stop" )
				echo "------stop hadoop cluster------"
				echo "------stop historyserver------"
				ssh hadoop103 "mr-jobhistory-daemon.sh stop historyserver"
				echo "------stop yarn------"
				ssh hadoop103 "stop-yarn.sh"
				echo "------stop hdfs------"
				ssh hadoop102 "stop-dfs.sh"
	;;
	* )
				echo "Argument Error"
	;;
esac
  1. Haoop集群jps进程查看脚本

jps.sh

# hadoop 集群 jps 查看进程
for host in hadoop102 hadoop103 hadoop104; do
	echo "------$host-------"
	ssh $host jps
done

2.20 Hadoop 常用端口号

hadoop3.xhadoop2.x
HDFS 内部端口8020/9000/98208020/9000
HDFS web端口987050070
Yarn web端口80888088
Jobhistory web端口1988819888

2.21 Hadoop 常用配置文件

hadoop3.xhadoop2.x
core-site.xmlcore-site.xml
hdfs-site.xmlhdfs-site.xml
yarn-site.xmlyarn-site.xml
mapred-site.xmlmapred-site.xml
workersslaves

2.22 Hadoop 集群时间同步配置

俗称“对表”,在服务器不能连接外网时,需要配置时间同步。由于服务器以联网,此处可以不配置了!

  1. 开启主时钟节点ntpd服务,并设置开机自启
systemctl status ntpd
systemctl start ntpd
systemctl is-enabled ntpd
  1. 修改ntp.conf 配置文件
# 设置集群主时钟节点可被其他节点访问
restict 192.168.10.0 mask 255.255.255.0 nomodify notrap
# 设置采用本机时钟,不连接互联网时钟,把joining the pool下方的行注释掉

# 设置当主时钟节点断网时,依然可以提供时间同步任务
server 127.127.1.0
fudge 127.127.1.0 stratum 10
  1. 关闭其余节点的ntpd服务和自启动
  2. 在其余节点设置定时任务定时同步集群时间
crontab -e

*/1 * * * * /usr/sbin/ntpdate hadoop102
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

道-闇影

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值