1、Spark运行模式概述
1、spark的运行模式
local
yarn-client yarn-cluster
standalone-client standalone-cluster
k8s/mesos(不讲)
2、local模式:
在Linux上的local:
将spark安装包解压
JAVA_HOME ====> spark_env.sh
SPARK_HOME ===>/etc/profile
启动:
spark-shell --master local[n]
####n代表该作业所需要消耗的core的数量
在IDE开发工具中的local:
在IDEA中新建maven项目
在pom.xml中配置spark依赖
书写spark程序可以直接运行
3、spark on yarn概述
有两种模式:yarn-client && yarn-cluster
在这两种模式下,spark都只是作为提交作业的客户端,不会起任何spark的进程。
./spark-shell --master yarn --jars mysql驱动包绝对路径
spark的jars目录:
在saprk1.x中该目录下只有一个大的包,所有jar包都在这个包里面。
在spark2.x该jars目录下就有很多的小的jar包。这儿有一个spark的优化点,以后再说。
spark on yarn生产用得最多,在下一篇博客中会详细讲解
4、spark日志级别
conf目录下执行命令:
cp log4j.properties.template log4j.properties && vi log4j.properties
将“log4j.ro