
大数据
MrLeebk
在某家上市公司从事大数据开发工程师工作。
展开
-
spark中checkpoint
查了大部分资料,关于spark中的checkpoint有一些自己的想法。spark中的checkpoint操作设置检查节点,相对持久化操作presist而言,是切断RDD依赖的操作,但同时它将RDD操作的过程,以文件的形式存储在分布式系统中(一般是HDFS),其实我们把这完全理解为恢复RDD日志。当任务失败,spark自己可以根据checkpoint的日志信息,很快恢复数据。。...原创 2019-03-04 10:56:56 · 440 阅读 · 0 评论 -
spark的shuffle操作
第一个特点,在Spark早期版本中,那个bucket缓存是非常非常重要的,因为需要将一个ShuffleMapTask所有的数据都写入内存缓存之后,才会刷新到磁盘。但是这就有一个问题,如果map side数据过多,那么很容易造成内存溢出。所以spark在新版本中,优化了,默认那个内存缓存是100kb,然后呢,写入一点数据达到了刷新到磁盘的阈值之后,就会将数据一点一点地刷新到磁盘。...原创 2019-03-04 11:08:40 · 362 阅读 · 0 评论 -
spark submit
spark on yarn 的提交模式资源参数调优spark资源参数调优,其实主要就是对spark运行中各个使用资源的地方,通过调节各种参数,来优化资源的使用效率从而提升Spark作业的执行性能。以下参数就是spark中主要的资源参数,每个参数都对应着作业运行原理的某个部分,在这里同时给出了参数调优的参考值num-executors参数说明: 该参...原创 2019-03-20 11:19:55 · 614 阅读 · 0 评论 -
spark算子操作
spark算子操作 创建RDD的本地文件 转换操作 map map操作是对RDD中的每个元素都执行一个指定的函数来产生一个新RDD,任何原RDD中的元素在新RDD中的元素在新RDD中都有且只有一个元素与之对应 flatMap操作与map操作类似,区别是原RDD中的每个元素经过map处理后只...原创 2019-04-17 09:51:54 · 791 阅读 · 0 评论 -
spark的广播变量和累加器
广播变量: 广播变量允许开发人员在每个节点缓存只读的变量,而不是在任务之间传递这些变量。例如,使用广播变量能够高效地在集群每个节点创建大数据的副本。同时,Spark还使用高效的广播算法分发这些变量,从而减少通信的开销。 spark应用程序作业的执行由一系列调度阶段构成,而这些调度阶段通过Shuffle进行分隔。Spark能够在每个调度阶段自动广播任务所需通用的数据,这...原创 2019-04-17 15:24:09 · 285 阅读 · 0 评论 -
粗粒度和细粒度
一.粗粒度资源调度:典型:Spark在Application执行之前,会将所有的资源(Executor)申请完毕,直接资源申请完毕后,才会进行任务调度,直到最后一个task执行完毕,才会释放掉这部分资源优点:每一个task执行之前不需要自己去申请资源,直接使用资源就可以,那么每一个task执行时间也就缩短了,stage执行时间也缩短了,job的执行时间也就缩短了Application执行时...原创 2019-07-23 11:28:43 · 1080 阅读 · 0 评论