2.环境搭建

Spark环境搭建与应用运行指南

Spark 环境搭建

2.1 本地模式安装

本地模式是 Spark 最简单的安装方式,适合开发和测试。

步骤:

  1. 下载 Spark

    • 访问 Spark 官方网站 下载预编译的 Spark 包。
    • 选择适合的版本和 Hadoop 版本。
  2. 解压 Spark

    tar -xvf spark-x.x.x-bin-hadoopx.x.tgz
    
  3. 设置环境变量

    export SPARK_HOME=/path/to/spark-x.x.x-bin-hadoopx.x
    export PATH=$SPARK_HOME/bin:$PATH
    
  4. 启动 Spark Shell

    $SPARK_HOME/bin/spark-shell
    
  5. 验证安装

    • 在 Spark Shell 中运行简单的 Scala 或 Python 代码,验证 Spark 是否正常工作。
2.2 集群模式安装

集群模式适合生产环境,支持 Standalone、YARN 和 Mesos 三种集群管理器。

2.2.1 Standalone 模式

  1. 配置主节点和工作节点

    • 在主节点和工作节点的 conf/spark-env.sh 中设置环境变量:
      export SPARK_MASTER_HOST=master_ip
      export SPARK_WORKER_CORES=4
      export SPARK_WORKER_MEMORY=4g
      
  2. 启动集群

    • 在主节点上启动 Master:
      $SPARK_HOME/sbin/start-master.sh
      
    • 在工作节点上启动 Worker:
      $SPARK_HOME/sbin/start-worker.sh spark://master_ip:7077
      
  3. 访问 Web UI

    • 打开浏览器,访问 http://master_ip:8080,查看集群状态。

2.2.2 YARN 模式

  1. 配置 Hadoop

    • 确保 Hadoop 集群已正确配置并运行。
  2. 提交 Spark 应用程序

    $SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    $SPARK_HOME/examples/jars/spark-examples_2.12-x.x.x.jar
    
  3. 监控应用程序

    • 使用 YARN 的 Web UI 监控应用程序状态。

2.2.3 Mesos 模式

  1. 配置 Mesos

    • 确保 Mesos 集群已正确配置并运行。
  2. 提交 Spark 应用程序

    $SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.SparkPi \
    --master mesos://mesos_master_ip:5050 \
    $SPARK_HOME/examples/jars/spark-examples_2.12-x.x.x.jar
    
  3. 监控应用程序

    • 使用 Mesos 的 Web UI 监控应用程序状态。
2.3 Spark Shell 的使用

Spark Shell 是一个交互式的命令行工具,支持 Scala 和 Python。

2.3.1 Scala Shell

$SPARK_HOME/bin/spark-shell

2.3.2 Python Shell

$SPARK_HOME/bin/pyspark

常用命令

  • 创建 RDD:
    val rdd = sc.parallelize(Seq(1, 2, 3, 4, 5))
    
  • 执行操作:
    rdd.count()
    
2.4 Spark 应用程序的提交与运行
  1. 编写 Spark 应用程序

    • 使用 Scala、Java 或 Python 编写 Spark 应用程序。
  2. 打包应用程序

    • 使用 Maven 或 sbt 打包 Scala/Java 应用程序。
    • 使用 ziptar 打包 Python 应用程序。
  3. 提交应用程序

    $SPARK_HOME/bin/spark-submit --class com.example.MyApp \
    --master yarn \
    --deploy-mode cluster \
    my-app.jar
    
  4. 监控应用程序

    • 使用 Spark Web UI 或集群管理器的 Web UI 监控应用程序状态。
2.5 常见问题与解决方案
  • 内存不足:增加 Executor 内存或调整分区数。
  • 网络问题:检查集群网络配置,确保节点间通信正常。
  • 依赖冲突:使用 --packages 参数指定依赖包。

通过以上步骤,你可以成功搭建 Spark 环境,并运行 Spark 应用程序。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值