年初参加了华为的大数据全栈成长计划,包括java,mysql,hadoop,spark,算是大数据小白更新认知体系。
计划地址:https://bbs.huaweicloud.com/forum/thread-90396-1-1.html
今天重新按照之前记录的笔记搭建一下hadoop集群,记录一下这个过程。
主要记录搭建步骤,报错信息之类的另外再讨论。
万变不离其宗(年初搭建使用centos6.5,hadoop2.7.2),各工具版本如下:
centos7.9,hadoop3.3.1,vmware14,xshell7,jdk版本:16 jdk版本8
准备工具:
- centos7:centos 官网下载地址:https://www.centos.org/download/
- hadoop 官网下载地址:https://hadoop.apache.org/releases.html
hadoop3.3.1官网表示只支持java8以及更高级的java版本 - vmware 官网:https://www.vmware.com/
- xshell 官网:https://www.netsarang.com/zh/xshell/
jdk16下载地址:https://www.oracle.com/java/technologies/javase-jdk16-downloads.html在启动yarn 的时候,jdk16有个坑。- jdk8下载地址:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
安装步骤:
- 安装虚拟机
- 复制jdk和hadoop安装包到虚拟机中,解压,配置环境变量,修改用户权限,修改目录用户和组,关闭防火墙
- 克隆虚拟机3台
- 配置3台虚拟机的静态IP地址,主机名称,DNS域名解析文件
- 配置ssh免密登录
- 规划集群,配置hadoop配置文件
- 启动集群,其他测试下回分解。
1、安装虚拟机
官网看了一下,centos7支持到2024年,centos8才支持到今年年底,就下载centos7。
鸟哥的私房菜也是用centos7教学。后续可以用来学习私房菜。
linux系统的学习可以参考《鸟哥的linux私房菜》。没看完,先不推荐,等我看完再来推荐。
用vmware做虚拟机软件,这几个服务要开起来(这几个服务主要跟网络服务有关,不开起来无法使用虚拟机的网络):
alt+R 输入 services.msc 打开系统服务,找到vmware开头的这几个服务。
可以在安装好虚拟机的时候设置网络,或者在linux的相关系统的配置文件中设置。
配置一下
root >vim /etc/sysconfig/network-scripts/ifcfg-ens33
需要注意这几个参数的配置: BOOTPROTO(启动协议,static/dhcp),IPADDR(IP地址),GATEWAY(网关),NETMASK(子网掩码),DNS1(域名解析服务),HWADDR(网卡MAC地址)。
另外,虚拟机中的网络模式有桥接,NAT,仅主机,这几个区别另外再找资料。
这里选择桥接的方式。注意点:需要设置静态IP地址
安装好虚拟机之后,在vmware的虚拟机配置界面把镜像文件卸载了(安装时使用的是iso映像文件,安装好之后可以直接使用物理驱动器了)。
2、复制jdk和hadoop安装包
设置好网络之后,使用xftp传输下载好的jdk和hadoop到虚拟机中:/opt/software
安装JAVA,配置JAVA环境变量:
desmond >tar -zxvf /opt/software/jdk-16.0.2_linux-x64_bin.tar.gz -C /opt/installation/
root >vim /etc/profile
export JAVA_HOME=/opt/installation/jdk-16.0.2
export PATH=$PATH:$JAVA_HOME/bin
root >source /etc/profile
desmond >java -version
安装HADOOP,配置环境变量: