Spark 3.0.1环境搭建（stand alone模式）

最新推荐文章于 2025-10-16 13:49:15 发布

原创

最新推荐文章于 2025-10-16 13:49:15 发布 · 2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#spark #apache spark #大数据

本文详细介绍了如何在CentOS 7.x集群上搭建Apache Spark 3.0.1的standalone模式，包括环境准备、安装步骤、重要参数设置和高可用性方案。内容涵盖JDK、Scala、Hadoop等组件的版本要求，以及启动集群、配置文件修改和通过Web界面监控集群状态。

Spark 3.0.1环境搭建（stand alone模式）

1. 背景

Spark作为大数据分析处理引擎的准事实标准，本身并不能存储数据，只能做数据分析。
Spark的运行需要依赖资源调度和任务管理，Spark自带了一套资源调度和任务管理工具，运行stand slone模式时，就是采取这套工具。
Spark本身还可以运行在其他资源管理和任务调度平台上，如Yarn、Mesos、Kubernates容器等。
注意，本身Yarn和Spark内部的资源管理和任务调度也使用了容器技术，不过不是docker技术，但目的和本质都是一样的。通过虚拟化容器技术把硬件性能尽可能压榨出来，也能更好做资源的分割和管理。

2. 搭建步骤

2.1 环境准备

centos 7.x集群，可以使用vmware15虚拟出来（参考我的博客），也可自己购买云服务器如阿里云服务器，也可以自己买主机（二手linux主机一台大概3000到6000，带CPU、内存、硬盘，就是噪音大，耗电量多一些）
jdk 1.8（安装在centos集群服务器上，具体参考我其他博客）
scala 2.12.x，我是使用的2.12.12，最新的scala版本已经是2.13.3版本。（安装在centos集群服务器上，具体参考我其他博客）
hadoop 3.2.1，需要安装部署到centos集群中，这是2020年较新版本。最新是3.3.0版本。（如何安装部署hadoop集群，可以参考我其他博客）
spark 3.0.1版本，2020年最新版本
hbase 2.2.5，这是2020年5月份版本，2.3.1是2020年8月份版本。
kafka，2.4.1版本，这是2020年3月份版本，最新是2.6.0是2020年8月份版本。
注意，如果需要在windows上编写scala或者java代码运行spark程序，则在windows上也需要安装scala和jdk环境。后续会专文讲解

2.2 搭建步骤

下载spark安装包
https://spark.apache.org/downloads.html

这里是可以选择对应匹配hadoop的spark版本程序包，因为spark一般都结合hadoop使用。这里如果找不到对应版本，可以自行使用源码进行编译！！！

在大数据的技术体系中，框架选择大致分为2个路线，一个是apache框架组合，不同框架的版本兼容性需要自己去摸索和维护，一种是CDH，本质还是apache版本，但它提供一个面板，点击一下就可以在环境中安装对应框架，并且确保框架之间版本兼容性和稳定性。
CDH目前针对高级功能收费，初级功能不收费，但企业一般使用初级功能即可。
CDH搭建