
Spark执行
大树的困惑
这个作者很懒,什么都没留下…
展开
-
某小伙的Spark奇妙之旅-DAG
Spark DAG 在学习Spark的过程中,会遇到SparkDag这个概念 Dag是一个有向无环图的缩写,他的意思是把Spark中调用各种RDD的过程,转化成一种Dag的形式 那么为什么要转化成DAG呢? 其实不是为什么要转化成DAG,而是spark的那种调度机制十分的适合DAG,因为spark的rdd调用是lazy的,所以他需要先记录每个rdd之间的依赖关系,防止执行过程中出错了可以根据那个依赖关系取溯源 既然每个RDD之间都是有依赖关系了,除了最开始的rdd之外,那么就很符合DAG(有向无环图)这个理原创 2020-10-11 12:19:26 · 485 阅读 · 0 评论 -
某小伙的Spark奇妙之旅-WordCount
Spark WordCount 如果说一个刚接触java程序,敲出的是hello,那么刚接触spark,敲出的应该是wordcount 从最开始入门hadoop的时候,就接触过由hadoop官方提供的样例jar,里面的wordcount程序,用来mr程序进行的词频统计 spark也一样,在其example包中包含了wordcount的样例 简单描述:WordCount 是用来统计某个文件,或者某个数据集中,单词的出现次数 首先贴上官方源码 public final class JavaWordCount {原创 2020-09-26 11:44:44 · 385 阅读 · 0 评论 -
Spark任务执行脚本以及调优参数
Spark的执行脚本 #! /bin/bash spark2-submit –class it.luke.Mainapp –master yarn –deploy-mode cluster –driver-memory 4g –num-executors 10 –executor-memory 2g –executor-cores 2 –conf spark.sql.autoBro...原创 2019-12-20 09:54:56 · 659 阅读 · 0 评论