前情提醒:linux基本命令和简单的shell脚本,已Get!
2.hadoop 3.x/2.x
Hadoop 分布式系统基础架构,主要解决数据的存储和计算,现Hadoop广义上 指的是Hadoop生态圈
Hadoop 简介
2.1 三大发行版本
- Apache 2006
- Cloudera CDH 2008
- Hortonworks HDP 2011
Hortonworks 和Cloudera 联合,2018推出 CDP
2.2 优势
- 高可靠性:底层维护多个副本
- 高扩展性:动态扩展节点,动态删除节点
- 高效性:并行计算
- 高容错性:失败任务自动重新分配
2.3 组成
- Common : 辅助工具
- HDFS: 数据存储
- YARN: 资源调度
- MapReduce: 计算
2.4 HDFS 文件系统
-
NameNode[NN] 名称节点
-
DataNode[DN] 数据节点
-
Secondary NameNode[2NN] 第二名称节点
2.5 YARN 资源管理工具
-
ResourceManager[RM] 集群资源管理器
-
NodeManager[NM] 节点资源管理器
-
ApplicationMaster[AM] 应用程序
-
Container 运行程序的资源容器
2.6 MapReduce 计算框架
-
Map 映射,一系列转换操作
-
Reduce 汇总
Hadoop 模板机搭建
2.7 模板机搭建
- 硬件
- 软件
- IP配置
- VMware 网络配置
- Windows网络配置
- Linux主机网络配置[/etc/sysconfig/network-scripts/ifcfg-xxx]
BOOTPROTO='static'
IPADDR=xxx.xxx.xx.xxx
GATEWAY=xxx.xxx.xx.x
DNS1=xxx.xxx.xx.x
- 主机名配置[/etc/hostname]
- 主机名称映射配置[/etc/hosts]
ip hostname
- 重启,使配置生效
2.8 远程访问工具
- Xshell+Xftp
- Mobaxterm
2.9 模板机环境配置
- rpel-release: readhat系列的软件仓库
yum install -y epel-relaease
- net-tools: 网络工具包[ifconfig]
yum install -y net-tools
- vim:文本编辑器
yum install -y vim
- 关闭防火墙
systemctl stop firewalld
systemctl disable firewalld.service
- 添加用户并服务对应权限
useradd xxx
passwd xxx
vim /etc/sudoers
# 在 %wheel 行下添加
xxx ALL=(ALL) NOPASSWD:ALL
- 卸载自带的JDK
rpm -qa |grep -i java | xargs -n1 rpm -e --nodeps
- 重启
2.10 模板机克隆
只需修改对应主机的名称和IP即可
Hadoop 集群部署
2.11 Hadoop 安装
- 安装jdk
# 1.上传安装包
# 2.解压
tar -zxvf xxx -C /xxx/xxx
# 3.配置环境变量
# 这里不在 /etc/profile直接配置环境变量,可以在/etc/profile.d/ 下新建文件,会直接读取
export JAVA_HOME=/xxx/xxx
export PATH=$PATH:$JAVA_HOME/bin
# 检查Ok
java -version
- 安装hadoop
# 1.上传安装包
# 2.解压
tar -zxvf xxx -C /xxx/xxx
# 3.配置环境变量
# 这里同样不在 /etc/profile直接配置环境变量,可以在/etc/profile.d/ 下新建文件,会直接读取
export HADOOP_HOME=/xxx/xxx
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
# 4.检查OK
hadoop version
2.12 Hadoop 集群文件拷贝
可以在配置SSH免密登录之后在拷贝,这样就不用输入各主机的密码
- 集群文件拷贝
# 方式一 :文件推送
scp -r /xxx/xxx user@hostname:/xxx/xxx
# 方式二 :文件拉取
scp -r user@hostname:/xxx/xxx /xxx/xxx
# 方式三 :文件传输
scp -r user@hostname:/xxx/xxx user@hostname:/xxx/xxx
- 集群配置同步
# 同 scp 使用方式类似,只同步差异性文件
rsync -av /xxx/xxx user@hostname:/xxx/xxx
这里提供了一个集群文件拷贝的脚本
xsync.sh
# 集群之间分发文件
if [[ $# -lt 1 ]]; then
echo Arguenment Error!
exit
fi
for host in hadoop102 hadoop103 hadoop104
do
for file in $@; do
if [[ -e $file ]]; then
pdir=$(cd -P $(dirname $file);pwd)
fname=$(basename $file)
ssh $host "mkdir -p $pdir"
rsync -av $pdir/$fname $host:$pdir
else
echo $file not exits!
fi
done
done
注意:有可能Linux主机上没有rsync工具,直接通过yum安装即可
yum install -y rsync
2.13 Hadoop SSH免密登录配置
- 进入家目录,生成密钥对
ssh-keygen -t rsa
- 拷贝公钥
ssh-copy-id hostname # 自身也要配置
- 集群每台主机重复此操作
2.14 Hadoop 集群配置
- Hadoop集群规划
hadoop102 | hadoop103 | hadoop104 | |
---|---|---|---|
HDFS | NN、DN | DN | 2NN |
YARN | NM | RM、NM | NM |
- 四大核心配置文件配置
- core-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.1/data</value>
</property>
</configuration>
- hdfs-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.namenode.http-address</name>
<value>hadoop102:9870</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:9868</value>
</property>
</configuration>
- yarn-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop103</value>
</property>
</configuration>
- mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
- 使用2.12的xsync.sh脚本直接同步即可
2.15 Hadoop 集群启动测试
-
配置workers/slaves
# hadoop 2.x 的叫做salves ,hadoop3.x 的叫做 workers hadoop102 hadoop103 hadoop104 # 配完别忘了同步
-
初次启动需初始化
hdfs namenode -format
- 启动
# 在namenode节点启动hdfs
start-dfs.sh
# 在resourcemanager节点启动yarn
start-yarn.sh
- webUI查看
# hdfs
192.168.10.102:9870
# yarn
192.168.10.103:8088
文件实际存储地址:默认保存三个副本
${HADOOP_HOME}/data/dfs/data/current/BP-1778870268-192.168.10.102-1638496036398/current/finalized/subdir0/subdir0
大文件还原:
hadoop 文件分块存储,hadoop2.x一个块最大128MB,只需要把块文件压缩在一起,再解压即可!
2.16 Hadoop集群崩溃处理
先要清除历史数据,再格式化【Namenode 和Datamode都有VERSION】
- 把hadoop相关进程关掉
- 删除三台hadoop目录下的 data/ 和logs/
- 格式化namenode
- 启动
2.17 Hadoop 历史服务器配置
- 修改mapred-site.xml
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop102:10020</value>
<description>MapReduce JobHistory Server IPC host:port</description>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop102:19888</value>
<description>MapReduce JobHistory Server Web UI host:port</description>
</property>
-
同步配置文件
-
重启yarn,再启动历史服务器
# hadoop3.x
mapred --daemon start historyserver
# hadoop2.x
mr-jobhistory-daemon.sh start historyserver
- 查看进程是否启动
jps
- 查看JobHistory
# 点击yarn界面对应application的history链接即可跳转日志服务
注意:jobhistory无法跳转时,观察地址栏url可以看出,需要配置windows的ip和主机映射:
文件路径 C:\Windows\System32\drivers\etc\hosts
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
2.18 Hadoop 日志聚集功能配置
- 修改yarn-site.xml
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
-
同步配置
-
关闭yarn和jobhistory进程
-
启动yarn和jobhistory进程
2.19 Hadoop 编写常用脚本
- Hadoop集群启动停止脚本
hadoop.sh
# hadoop 集群启动停止脚本
if [[ $# -lt 1 ]]; then
echo "Argument Error"
exit
fi
case $1 in
"start" )
echo "------start hadoop cluster------"
echo "------start hdfs------"
ssh hadoop102 "start-dfs.sh"
echo "start yarn"
ssh hadoop103 "start-yarn.sh"
echo "------start historyserver------"
ssh hadoop103 "mr-jobhistory-daemon.sh start historyserver"
;;
"stop" )
echo "------stop hadoop cluster------"
echo "------stop historyserver------"
ssh hadoop103 "mr-jobhistory-daemon.sh stop historyserver"
echo "------stop yarn------"
ssh hadoop103 "stop-yarn.sh"
echo "------stop hdfs------"
ssh hadoop102 "stop-dfs.sh"
;;
* )
echo "Argument Error"
;;
esac
- Haoop集群jps进程查看脚本
jps.sh
# hadoop 集群 jps 查看进程
for host in hadoop102 hadoop103 hadoop104; do
echo "------$host-------"
ssh $host jps
done
2.20 Hadoop 常用端口号
hadoop3.x | hadoop2.x | |
---|---|---|
HDFS 内部端口 | 8020/9000/9820 | 8020/9000 |
HDFS web端口 | 9870 | 50070 |
Yarn web端口 | 8088 | 8088 |
Jobhistory web端口 | 19888 | 19888 |
2.21 Hadoop 常用配置文件
hadoop3.x | hadoop2.x |
---|---|
core-site.xml | core-site.xml |
hdfs-site.xml | hdfs-site.xml |
yarn-site.xml | yarn-site.xml |
mapred-site.xml | mapred-site.xml |
workers | slaves |
2.22 Hadoop 集群时间同步配置
俗称“对表”,在服务器不能连接外网时,需要配置时间同步。由于服务器以联网,此处可以不配置了!
- 开启主时钟节点ntpd服务,并设置开机自启
systemctl status ntpd
systemctl start ntpd
systemctl is-enabled ntpd
- 修改ntp.conf 配置文件
# 设置集群主时钟节点可被其他节点访问
restict 192.168.10.0 mask 255.255.255.0 nomodify notrap
# 设置采用本机时钟,不连接互联网时钟,把joining the pool下方的行注释掉
# 设置当主时钟节点断网时,依然可以提供时间同步任务
server 127.127.1.0
fudge 127.127.1.0 stratum 10
- 关闭其余节点的ntpd服务和自启动
- 在其余节点设置定时任务定时同步集群时间
crontab -e
*/1 * * * * /usr/sbin/ntpdate hadoop102