Spark 3.0.1环境搭建(stand alone模式)

本文详细介绍了如何在CentOS 7.x集群上搭建Apache Spark 3.0.1的standalone模式,包括环境准备、安装步骤、重要参数设置和高可用性方案。内容涵盖JDK、Scala、Hadoop等组件的版本要求,以及启动集群、配置文件修改和通过Web界面监控集群状态。

Spark 3.0.1环境搭建(stand alone模式)

1. 背景

  1. Spark作为大数据分析处理引擎的准事实标准,本身并不能存储数据,只能做数据分析。
  2. Spark的运行需要依赖资源调度和任务管理,Spark自带了一套资源调度和任务管理工具,运行stand slone模式时,就是采取这套工具。
  3. Spark本身还可以运行在其他资源管理和任务调度平台上,如Yarn、Mesos、Kubernates容器等。
    注意,本身Yarn和Spark内部的资源管理和任务调度也使用了容器技术,不过不是docker技术,但目的和本质都是一样的。通过虚拟化容器技术把硬件性能尽可能压榨出来,也能更好做资源的分割和管理。

2. 搭建步骤

2.1 环境准备

  1. centos 7.x集群,可以使用vmware15虚拟出来(参考我的博客),也可自己购买云服务器如阿里云 服务器,也可以自己买主机(二手linux主机一台大概3000到6000,带CPU、内存、硬盘,就是噪音大,耗电量多一些)
  2. jdk 1.8(安装在centos集群服务器上,具体参考我其他博客)
  3. scala 2.12.x,我是使用的2.12.12,最新的scala版本已经是2.13.3版本。(安装在centos集群服务器上,具体参考我其他博客)
  4. hadoop 3.2.1,需要安装部署到centos集群中,这是2020年较新版本。最新是3.3.0版本。(如何安装部署hadoop集群,可以参考我其他博客)
  5. spark 3.0.1版本,2020年最新版本
  6. hbase 2.2.5,这是2020年5月份版本,2.3.1是2020年8月份版本。
  7. kafka,2.4.1版本,这是2020年3月份版本,最新是2.6.0是2020年8月份版本。
    注意,如果需要在windows上编写scala或者java代码运行spark程序,则在windows上也需要安装scala和jdk环境。后续会专文讲解

2.2 搭建步骤

  1. 下载spark安装包
    https://spark.apache.org/downloads.html
    在这里插入图片描述
    这里是可以选择对应匹配hadoop的spark版本程序包,因为spark一般都结合hadoop使用。这里如果找不到对应版本, 可以自行使用源码进行编译!!!

在大数据的技术体系中,框架选择大致分为2个路线,一个是apache框架组合,不同框架的版本兼容性需要自己去摸索和维护,一种是CDH,本质还是apache版本,但它提供一个面板,点击一下就可以在环境中安装对应框架,并且确保框架之间版本兼容性和稳定性。
CDH目前针对高级功能收费,初级功能不收费,但企业一般使用初级功能即可。
CDH搭建

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值