Spark 环境搭建
2.1 本地模式安装
本地模式是 Spark 最简单的安装方式,适合开发和测试。
步骤:
-
下载 Spark:
- 访问 Spark 官方网站 下载预编译的 Spark 包。
- 选择适合的版本和 Hadoop 版本。
-
解压 Spark:
tar -xvf spark-x.x.x-bin-hadoopx.x.tgz -
设置环境变量:
export SPARK_HOME=/path/to/spark-x.x.x-bin-hadoopx.x export PATH=$SPARK_HOME/bin:$PATH -
启动 Spark Shell:
$SPARK_HOME/bin/spark-shell -
验证安装:
- 在 Spark Shell 中运行简单的 Scala 或 Python 代码,验证 Spark 是否正常工作。
2.2 集群模式安装
集群模式适合生产环境,支持 Standalone、YARN 和 Mesos 三种集群管理器。
2.2.1 Standalone 模式
-
配置主节点和工作节点:
- 在主节点和工作节点的
conf/spark-env.sh中设置环境变量:export SPARK_MASTER_HOST=master_ip export SPARK_WORKER_CORES=4 export SPARK_WORKER_MEMORY=4g
- 在主节点和工作节点的
-
启动集群:
- 在主节点上启动 Master:
$SPARK_HOME/sbin/start-master.sh - 在工作节点上启动 Worker:
$SPARK_HOME/sbin/start-worker.sh spark://master_ip:7077
- 在主节点上启动 Master:
-
访问 Web UI:
- 打开浏览器,访问
http://master_ip:8080,查看集群状态。
- 打开浏览器,访问
2.2.2 YARN 模式
-
配置 Hadoop:
- 确保 Hadoop 集群已正确配置并运行。
-
提交 Spark 应用程序:
$SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ $SPARK_HOME/examples/jars/spark-examples_2.12-x.x.x.jar -
监控应用程序:
- 使用 YARN 的 Web UI 监控应用程序状态。
2.2.3 Mesos 模式
-
配置 Mesos:
- 确保 Mesos 集群已正确配置并运行。
-
提交 Spark 应用程序:
$SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.SparkPi \ --master mesos://mesos_master_ip:5050 \ $SPARK_HOME/examples/jars/spark-examples_2.12-x.x.x.jar -
监控应用程序:
- 使用 Mesos 的 Web UI 监控应用程序状态。
2.3 Spark Shell 的使用
Spark Shell 是一个交互式的命令行工具,支持 Scala 和 Python。
2.3.1 Scala Shell
$SPARK_HOME/bin/spark-shell
2.3.2 Python Shell
$SPARK_HOME/bin/pyspark
常用命令:
- 创建 RDD:
val rdd = sc.parallelize(Seq(1, 2, 3, 4, 5)) - 执行操作:
rdd.count()
2.4 Spark 应用程序的提交与运行
-
编写 Spark 应用程序:
- 使用 Scala、Java 或 Python 编写 Spark 应用程序。
-
打包应用程序:
- 使用 Maven 或 sbt 打包 Scala/Java 应用程序。
- 使用
zip或tar打包 Python 应用程序。
-
提交应用程序:
$SPARK_HOME/bin/spark-submit --class com.example.MyApp \ --master yarn \ --deploy-mode cluster \ my-app.jar -
监控应用程序:
- 使用 Spark Web UI 或集群管理器的 Web UI 监控应用程序状态。
2.5 常见问题与解决方案
- 内存不足:增加 Executor 内存或调整分区数。
- 网络问题:检查集群网络配置,确保节点间通信正常。
- 依赖冲突:使用
--packages参数指定依赖包。
通过以上步骤,你可以成功搭建 Spark 环境,并运行 Spark 应用程序。
Spark环境搭建与应用运行指南

被折叠的 条评论
为什么被折叠?



