Apache Doris Spark Load快速体验之Spark部署（1）

最新推荐文章于 2025-08-17 10:41:00 发布

原创

最新推荐文章于 2025-08-17 10:41:00 发布 · 1.5k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#apache #spark #大数据

文章详细介绍了在CentOS7环境下，如何部署ApacheSpark3.3.2，包括下载Spark，配置环境变量，初始化设置，启动master和workers。过程中提到了Spark作为大数据处理的框架，支持多种运算和库，以及遇到的master启动失败问题，解决方案是确保Scala版本与Spark版本匹配。

环境信息

硬件信息

CPU ：4C
CPU型号：ARM64
内存：10GB
硬盘：66GB SSD

软件信息

VM镜像版本 ：CentOS-7
Apahce Doris版本 ：1.2.4.1
Scala版本：2.13
Spark版本：3.3.2

Spark介绍

在这里插入图片描述
伴随数据的巨量增长，Apache Spark 已成为分布式横向扩展数据处理的热门框架之一，可以在本地和云端数以百万计的服务器上运行。

Apache Spark 是应用于大型数据处理的快速通用分析引擎，可在 YARN、Apache Mesos、Kubernetes 上运行，也可独立或在云端运行。借助用于 SQL、流处理、机器学习和图形处理的高级运算符及库，Spark 使开发者能够通过交互式 shell、笔记本或应用程序包来使用 Scala、Python、R 或 SQL 轻松构建并行应用程序。通过功能编程模型和相关查询引擎 Catalyst，Spark 支持批量和交互式分析，可将作业转换为查询方案，并跨集群节点调度查询方案中的操作。

Spark 核心数据处理引擎之上存在多个用于 SQL 和 DataFrame、机器学习、GraphX、图形计算和流处理的库。用户可在来自各种数据源（例如 HDFS、Alluxio、Apache Cassandra、Apache HBase 或 Apache Hive）的海量数据集上结合使用这些库。

Spark安装部署

下载Spark

#根据自己scala版本和系统进行下载
wget https://archive.apache.org/dist/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3-scala2.13.tgz

最低0.47元/天解锁文章

Apache Doris Spark Load快速体验之Spark部署（1）

Apache Doris Spark Load快速体验之Spark部署（1）

环境信息

硬件信息

软件信息

Spark介绍

Spark安装部署

下载Spark

4 条评论