一.spark的四种部署模式
1.本地模式(local)
不指定master,或者–master local
local:只是用一个cores local[N]:使用N个cores local[*]:使用所有的cores
2.standalone 集群模式 spark框架自带的模式
–master standalone的master地址
eg: –master spark://linux01:7077
3.yarn集群模式
把spark任务运行在yarn平台
–master yarn
4.mesos集群模式
把spark任务运行在mesos平台
–master mesos
以standalone集群模式为主
二.spark集群启动
前提:在linux虚拟机上安装部署好spark集群,设置好环境变量
1.单独启动(停止)master或worker
start-master.sh stop-master.sh
start-slaves.sh stop-slaves.sh
2.一键启动(停止)spark集群
start-all.sh
stop-all.sh
三.运行Spark程序
1.两种方式:
在客户端提交任务,客户端可以在任意地方,只要他连接了spark集群
1)spark-shell (其实它也调用了spark-submit)
spark的交互式命令行,多用于本地测试程序
默认是local模式,在本地使用多线程来模拟分布式程序。
eg: spark-shell –master spark://linux01:7077
2)spark-submit
用于提交spark程序到sp