
spark
白菜banger
这个作者很懒,什么都没留下…
展开
-
spark的笔记01
1.Spark & MR相对速度快的原因? 1).Spark可以基于内存处理数据,MR基于磁盘处理数据。 2).Spark中有DAG有向无环图 3).Spark多个任务之间数据通信是基于内存,而Hadoop是基于磁盘。 总结:在处理数据的时候,Spark中的job会使用前一个在内存中存放的rdd,这样的就不会有2.完成Spark java版本WordCount &...原创 2019-07-24 20:21:26 · 127 阅读 · 0 评论 -
Spark的笔记02
1.基于Yarn提交Spark任务的配置? 在Spark的客户端 …/spark/conf/spark-env.sh 配置: export HAOOP_CONF_DIR = $HADOOP_HOME/etc/hadoop命令:./spark-submit --master yarn --class jar 参数2.Spark基于Standalone提交任务两种方式及二张图。cl...原创 2019-07-24 20:22:23 · 131 阅读 · 0 评论 -
Spark的笔记03
一.Spark的资源调度和任务调度资源调度1.集群启动,Worker向Master汇报资源,Master掌握集群的资源信息2…客户端提交Spark任务,创建两个对象 DAGScheduler 和TaskScheduler ,TaskScheduler 向Master申请资源3.Master找到到满足资源的Worker,启动Executor4.Executor启动之后,反向注册给Driv...原创 2019-07-24 20:23:35 · 198 阅读 · 0 评论 -
Spark的笔记04
1.Spark Submit提交任务启动Driver Driver启动 -注册application-申请资源2.Driver启动注册Application申请资源3.Master划分资源 – 资源调度 1.Execute在集群中是分散启动的,利于数据处理的本地化 2.如果提交任务什么都不指定,集群中每台Worker为当前的application 启动一个Executor,这个Ex...原创 2019-07-24 20:24:30 · 191 阅读 · 0 评论 -
Spark的笔记05
spark默认端口修改修改WENUI 端口 :在spark/conf/vim spark-env.sh 内写入export SPARK_MASTER_WEBUI_PORT=8888(默认为8080,这里改为8888)或临时环境变量:export SPARK_MASTER_WEBUI_PORT=9999`export -n :删除零时变量Master HA配置两种方式1.本地文件...原创 2019-07-24 21:49:43 · 225 阅读 · 0 评论