hadoop 3.3.1 安装笔记

本文档详细记录了使用CentOS7搭建Hadoop 3.3.1集群的过程,包括安装虚拟机、配置网络、克隆、配置Hadoop、启动集群等步骤。遇到的问题如jdk16在启动YARN时的不兼容,以及IP冲突导致的连接不稳定等,并给出了解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

年初参加了华为的大数据全栈成长计划,包括java,mysql,hadoop,spark,算是大数据小白更新认知体系。
计划地址:https://bbs.huaweicloud.com/forum/thread-90396-1-1.html

今天重新按照之前记录的笔记搭建一下hadoop集群,记录一下这个过程。
主要记录搭建步骤,报错信息之类的另外再讨论。
万变不离其宗(年初搭建使用centos6.5,hadoop2.7.2),各工具版本如下:
centos7.9,hadoop3.3.1,vmware14,xshell7,jdk版本:16 jdk版本8


准备工具:


安装步骤:

  • 安装虚拟机
  • 复制jdk和hadoop安装包到虚拟机中,解压,配置环境变量,修改用户权限,修改目录用户和组,关闭防火墙
  • 克隆虚拟机3台
  • 配置3台虚拟机的静态IP地址,主机名称,DNS域名解析文件
  • 配置ssh免密登录
  • 规划集群,配置hadoop配置文件
  • 启动集群,其他测试下回分解。

1、安装虚拟机

官网看了一下,centos7支持到2024年,centos8才支持到今年年底,就下载centos7。
鸟哥的私房菜也是用centos7教学。后续可以用来学习私房菜。
linux系统的学习可以参考《鸟哥的linux私房菜》。没看完,先不推荐,等我看完再来推荐。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
用vmware做虚拟机软件,这几个服务要开起来(这几个服务主要跟网络服务有关,不开起来无法使用虚拟机的网络):

alt+R 输入 services.msc 打开系统服务,找到vmware开头的这几个服务。
在这里插入图片描述

可以在安装好虚拟机的时候设置网络,或者在linux的相关系统的配置文件中设置。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
配置一下

root >vim /etc/sysconfig/network-scripts/ifcfg-ens33
需要注意这几个参数的配置: BOOTPROTO(启动协议,static/dhcp),IPADDR(IP地址),GATEWAY(网关),NETMASK(子网掩码),DNS1(域名解析服务),HWADDR(网卡MAC地址)。
在这里插入图片描述
另外,虚拟机中的网络模式有桥接,NAT,仅主机,这几个区别另外再找资料
这里选择桥接的方式。注意点:需要设置静态IP地址

安装好虚拟机之后,在vmware的虚拟机配置界面把镜像文件卸载了(安装时使用的是iso映像文件,安装好之后可以直接使用物理驱动器了)。
在这里插入图片描述

2、复制jdk和hadoop安装包

设置好网络之后,使用xftp传输下载好的jdk和hadoop到虚拟机中:/opt/software
在这里插入图片描述
安装JAVA,配置JAVA环境变量:

desmond >tar -zxvf /opt/software/jdk-16.0.2_linux-x64_bin.tar.gz -C /opt/installation/
root >vim /etc/profile

export JAVA_HOME=/opt/installation/jdk-16.0.2
export PATH=$PATH:$JAVA_HOME/bin

root >source /etc/profile
desmond >java -version
在这里插入图片描述

安装HADOOP,配置环境变量:

<think>嗯,用户想在Hadoop 3.3.1安装Spark,需要教程或指南。首先,我得确认两者的兼容性。Spark和Hadoop的版本需要匹配,否则可能会有问题。查一下Spark的官方文档,看看哪个版本的Spark支持Hadoop 3.3.1。比如Spark 3.0.0及以上通常支持Hadoop 3.x,所以用户可能需要安装Spark 3.x版本。 接下来,安装步骤大概包括下载Spark、配置环境变量、修改Spark的配置以连接到Hadoop,然后测试是否正确集成。需要确保Hadoop已经正确安装并且环境变量如HADOOP_HOME设置好了。可能还需要配置spark-env.sh文件,设置HADOOP_CONF_DIR指向Hadoop的配置文件目录。 用户可能会遇到的问题包括版本不兼容、环境变量未正确设置,或者Spark无法识别Hadoop的配置。这时候需要检查日志文件,看看具体错误信息。另外,可能需要处理依赖项,比如确保Java版本符合要求,或者处理Hadoop的库文件路径是否正确。 生成相关问题时,要考虑用户可能遇到的后续步骤,比如验证安装、性能调优、处理依赖冲突,或者如何提交任务到YARN集群。这些都是用户在安装后可能需要的帮助点。</think>### 在Hadoop 3.3.1安装Spark的步骤指南 #### 1. 环境准备 - **确认Hadoop已正确安装** 运行 `hadoop version` 验证Hadoop 3.3.1是否已部署,输出应包含版本信息: ```bash Hadoop 3.3.1 ``` - **安装Java 8/11** Spark要求Java 8或11,通过 `java -version` 检查版本[^2]。 #### 2. 下载Spark 选择与Hadoop 3.3兼容的Spark版本(推荐Spark 3.3.0): ```bash wget https://archive.apache.org/dist/spark/spark-3.3.0/spark-3.3.0-bin-hadoop3.tgz tar -xzvf spark-3.3.0-bin-hadoop3.tgz mv spark-3.3.0-bin-hadoop3 /opt/spark ``` #### 3. 配置环境变量 在 `~/.bashrc` 中添加: ```bash export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop ``` 执行 `source ~/.bashrc` 使配置生效。 #### 4. 修改Spark配置 - **编辑 `spark-env.sh`** 复制模板文件并添加Hadoop配置: ```bash cd $SPARK_HOME/conf cp spark-env.sh.template spark-env.sh echo "export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop" >> spark-env.sh ``` #### 5. 验证安装 运行Spark独立模式测试: ```bash spark-shell ``` 在交互界面输入 `sc.version` 应显示Spark 3.3.0。 #### 6. YARN集群集成(可选) 提交任务到YARN: ```bash spark-submit --master yarn --deploy-mode client --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-examples_2.12-3.3.0.jar 10 ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值