Spark从入门到精通第七课：Spark运行模式概述 && Spark standalone模式精讲 && spark核心概念

最新推荐文章于 2025-06-26 15:08:24 发布

二百四十九先森

最新推荐文章于 2025-06-26 15:08:24 发布

阅读量1.9k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Spark技术详解文章标签： Spark

本文链接：https://blog.youkuaiyun.com/pengzonglu7292/article/details/79513674

本文介绍了Spark的运行模式，深入讲解了sparkStandalone模式，特别是通过spark-client的执行流程进行阐述，同时探讨了Spark的核心概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、Spark运行模式概述

1、spark的运行模式
    local
    yarn-client            yarn-cluster
    standalone-client      standalone-cluster
    k8s/mesos(不讲)

2、local模式：
在Linux上的local：
     将spark安装包解压
        JAVA_HOME ====> spark_env.sh
        SPARK_HOME ===>/etc/profile
      启动：
            spark-shell --master local[n] 
            ####n代表该作业所需要消耗的core的数量

在IDE开发工具中的local：
    在IDEA中新建maven项目
    在pom.xml中配置spark依赖
    书写spark程序可以直接运行


3、spark on yarn概述
    有两种模式：yarn-client  &&  yarn-cluster
    在这两种模式下，spark都只是作为提交作业的客户端，不会起任何spark的进程。
    ./spark-shell --master yarn --jars mysql驱动包绝对路径
    
spark的jars目录：
    在saprk1.x中该目录下只有一个大的包，所有jar包都在这个包里面。
    在spark2.x该jars目录下就有很多的小的jar包。这儿有一个spark的优化点，以后再说。
        
spark on yarn生产用得最多，在下一篇博客中会详细讲解


4、spark日志级别
conf目录下执行命令：
    cp  log4j.properties.template   log4j.properties    && vi log4j.properties
    将“log4j.ro