Apache Spark2.3.2源码编译+部署HA详解(CDH5.13.1环境)

最新推荐文章于 2022-08-02 20:57:17 发布

原创

最新推荐文章于 2022-08-02 20:57:17 发布 · 590 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#spark2.3.2 #spark2.3.2 HA搭建步骤 #CDH spark2.3.2 HA搭建步骤 #centos7 spark2.3.2 HA集群搭建步骤

本文详细介绍了如何在CDH5.13.1环境中，使用Apache Spark 2.3.2源码进行编译，并部署高可用（HA）集群。首先，讲解了为何需要源码编译以及编译环境的要求，包括Java、Maven和Scala的版本。接着，详细阐述了编译前的准备，如JDK、Maven和Scala的安装配置。然后，指导如何在pom.xml中添加CDH依赖库，以及通过Maven或`make-distribution.sh`脚本进行编译。最后，详细描述了Spark HA服务的搭建过程，包括配置`spark-env.sh`、创建软链接、配置slaves文件以及启动和验证HA集群。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：

首先为什么要用apache spark2.3.2的源码来自己编译？

因为spark一般需要结合Hadoop来使用，所以需要对应Hadoop相应的版本。
CDH编译好的spark，可能在结合其它组件使用的时候，容易出现一些问题。

简介：

网址：http://spark.apache.org/
从官网简介可以看出：
1. 快如闪电的统一分析引擎
2. Apache Spark™是用于大规模数据处理的统一分析引擎。
有很多的优点：
1. 速度快：以100倍的速度运行工作负载。
2. 便于使用：支持Java，Scala，Python，R和SQL等语言快速编写应用程序。
3. 健壮性：可以结合SQL、流式处理和一些复杂的分析，比如机器学习等。
4. 运行在各个地方：Spark运行在Hadoop、Apache Mesos、Kubernetes、standalone或云端。它可以访问不同的数据源。

编译环境：

根据spark官网给出的信息：http://spark.apache.org/docs/2.3.2/

        以下是官网给出的版本要求信息：

        从这段信息可以看出，spark支持的是Java 8+和Scala 2.11.x，对于spark2.2.0就已经不再支持Java 7和Hadoop 2.6.5之前的版本了（但是我在CDH5.13.1上编译，运行spark都没什么问题，Hadoop是2.6.0的），而spark2.3.0就开始不再支持Scala 2.10了。
        如果需要使用Maven进行编译，官网给出的编译要求和编译步骤：http://spark.apache.org/docs/2.3.2/building-spark.html

        以下是官网给出的Maven版本要求：

        从这段信息可以看出，Maven需要3.3.9或以上版本

以下是笔者的环境版本：

CentOS release 6.10 (Final)
java version "1.8.0_131"
Apache Maven 3.5.0
Scala version 2.11.8
Apache spark 2.3.2

编译前准备：

众所周知，spark是个非常吃内存的家伙，所以用虚拟机的小伙伴，最好把虚拟机内存调大一些，最好大于3个G。

安装配置JDK

Java网址：https://www.oracle.com/technetwork/java/index.html+

下载JDK：
1. 选择JDK版本的地址，笔者选的是Java SE 8，点击进入：https

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄8年

16
原创

18
点赞

46
收藏

7
粉丝

关注

私信

热门文章

分类专栏

hadoop 2篇
hdfs
datanode消失
hive 1篇
hbase 1篇
elasticsearch 2篇
mapreduce 1篇
es
javaApi
Ambari 1篇
Cloudera 2篇
spark 2篇
CarbonData 2篇
Thrift
Kafka 1篇
zeppelin 1篇
Oracle 2篇
sqoop

展开全部收起

上一篇：: 搭建CDH5.13.1步骤及问题解决

下一篇：: CarbonData 1.5.2编译部署步骤(spark2.3.2)

最新评论

CarbonData 1.5.2编译部署步骤(spark2.3.2)
普通网友: 码住，求博主联系方式，我的微信cto51shequ，在线等回复
CarbonData 1.5.2编译部署步骤(spark2.3.2)
爱码师回复晨光1024: 您好，我搭建成功了，而且正常运行的。您这个可能是因为版本的问题，或者是jar包版本的问题。您可以检查您编译时的pom.xml文件
CarbonData 1.5.2编译部署步骤(spark2.3.2)
晨光1024: ./bin/spark-shell --master yarn-client --driver-memory 1g --executor-cores 2 --executor-memory 2G java.util.NoSuchElementException at java.util.Collections$EmptyIterator.next(Collections.java:4189) at org.apache.spark.util.kvstore.InMemoryStore$InMemoryIterator.next(InMemoryStore.java:281) at org.apache.spark.status.AppStatusStore.applicationInfo(AppStatusStore.scala:38) at org.apache.spark.ui.jobs.AllJobsPage.render(AllJobsPage.scala:275) at org.apache.spark.ui.WebUI$$anonfun$2.apply(WebUI.scala:82) at org.apache.spark.ui.WebUI$$anonfun$2.apply(WebUI.scala:82) at org.apache.spark.ui.JettyUtils$$anon$3.doGet(JettyUtils.scala:90) at javax.servlet.http.HttpServlet.service(HttpServlet.java:707) at javax.servlet.http.HttpServlet.service(HttpServlet.java:820) at org.spark_project.jetty.servlet.ServletHolder.handle(ServletHolder.java:848) at org.spark_project.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:584) at org.spark_project.jetty.server.handler.ContextHandler.d
CarbonData 1.5.2编译部署步骤(spark2.3.2)
晨光1024: 楼主搭建成功了嘛环境 CarbonData 1.6.1 + Spark 2.3.2 以spark shell 的启动报错
使用Mapreduce将hbase 1.1.2 数据导入elasticsearch 2.3.4 中所遇到的坑
爱码师回复 jojoy_828: 我的版本是因为环境限制，您可以使用一些较高的版本，比如es5.6.3 hbase.histable.name和hbase.qxtable.name是hbase中的两张表名

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。