Spark 3.0.1环境搭建(stand alone模式)
1. 背景
- Spark作为大数据分析处理引擎的准事实标准,本身并不能存储数据,只能做数据分析。
- Spark的运行需要依赖资源调度和任务管理,Spark自带了一套资源调度和任务管理工具,运行stand slone模式时,就是采取这套工具。
- Spark本身还可以运行在其他资源管理和任务调度平台上,如Yarn、Mesos、Kubernates容器等。
注意,本身Yarn和Spark内部的资源管理和任务调度也使用了容器技术,不过不是docker技术,但目的和本质都是一样的。通过虚拟化容器技术把硬件性能尽可能压榨出来,也能更好做资源的分割和管理。
2. 搭建步骤
2.1 环境准备
- centos 7.x集群,可以使用vmware15虚拟出来(参考我的博客),也可自己购买云服务器如阿里云 服务器,也可以自己买主机(二手linux主机一台大概3000到6000,带CPU、内存、硬盘,就是噪音大,耗电量多一些)
- jdk 1.8(安装在centos集群服务器上,具体参考我其他博客)
- scala 2.12.x,我是使用的2.12.12,最新的scala版本已经是2.13.3版本。(安装在centos集群服务器上,具体参考我其他博客)
- hadoop 3.2.1,需要安装部署到centos集群中,这是2020年较新版本。最新是3.3.0版本。(如何安装部署hadoop集群,可以参考我其他博客)
- spark 3.0.1版本,2020年最新版本
- hbase 2.2.5,这是2020年5月份版本,2.3.1是2020年8月份版本。
- kafka,2.4.1版本,这是2020年3月份版本,最新是2.6.0是2020年8月份版本。
注意,如果需要在windows上编写scala或者java代码运行spark程序,则在windows上也需要安装scala和jdk环境。后续会专文讲解
2.2 搭建步骤
- 下载spark安装包
https://spark.apache.org/downloads.html

这里是可以选择对应匹配hadoop的spark版本程序包,因为spark一般都结合hadoop使用。这里如果找不到对应版本, 可以自行使用源码进行编译!!!
在大数据的技术体系中,框架选择大致分为2个路线,一个是apache框架组合,不同框架的版本兼容性需要自己去摸索和维护,一种是CDH,本质还是apache版本,但它提供一个面板,点击一下就可以在环境中安装对应框架,并且确保框架之间版本兼容性和稳定性。
CDH目前针对高级功能收费,初级功能不收费,但企业一般使用初级功能即可。
CDH搭建

本文详细介绍了如何在CentOS 7.x集群上搭建Apache Spark 3.0.1的standalone模式,包括环境准备、安装步骤、重要参数设置和高可用性方案。内容涵盖JDK、Scala、Hadoop等组件的版本要求,以及启动集群、配置文件修改和通过Web界面监控集群状态。
最低0.47元/天 解锁文章
3108





