
spark
文章平均质量分 92
年青人阿本
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkSubmit 提交作业源码流程粗略概述(含application中 driver、client、 executor的创建)
SparkSubmit 提交程序源码流程及application中 driver、client、 executor的创建源码基于1.5.1版本大体流程说明: (后续作补充修改) 1、通过 sparkSubmit 命令提交执行SparkSubmit的main函数, 2、在SparkSubmit的main函数中调用 prepareSubmitEnvironment 方法,这个方法用于原创 2016-10-29 21:58:43 · 947 阅读 · 0 评论 -
spark sql demo
通过pojo构造table:package sparkSql;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.func原创 2017-03-02 15:41:13 · 732 阅读 · 0 评论 -
spark配置详解
这些皆可在 spark-default.conf配置,或者部分可在 sparkconf().set设置应用程序属性属性名称 | 默认值 | 含义----------------------------------------------------------------------------------spark.app.name原创 2016-11-19 23:23:48 · 1897 阅读 · 0 评论 -
spark rdd的iterator()计算实现以及checkpoint源码
checkpointCheckpoint() : 说明:数据存在本地。该函数会创建个二进制文件,存在checkpoint目录。不是action,不会马上执行,配合 sc.setCheckpointDir(“/data/checkpoint”)使用. 使用该函数之前先 persist ,否则该函数会重新计算 ?? 使用场景: 当下游 RDD 计算出错时,可以直接从 ch原创 2016-12-16 23:04:08 · 4240 阅读 · 0 评论 -
Spark RDD操作函数说明
下面 (K,V)表Tuple2 , <>表rdd内元素类型TransformationmapPartitions语法: def mapPartitions[U: ClassTag]( f: Iterator[T] => Iterator[U], preservesPartitioning: Boolean = false): RDD[U] 说明: 参数 preservesPartitioning原创 2016-11-23 21:19:12 · 639 阅读 · 0 评论 -
Spark中几种重要的结构类型
Stage:private[spark] abstract class Stage( val id: Int, //Stage的序号数值越大,优先级越高 val rdd: RDD[_], //归属于本Stage的最后一个rdd val numTasks: Int, //等于父RDD的输出Partition数目,该初始值来自 DAGScheduler.newO原创 2016-11-17 22:45:20 · 1614 阅读 · 0 评论 -
Spark相关流程示意图
从网上搜集一些spark Runjtime、Schedule、Shuffle、stage划分等的示意图。之前写的博客一直没放过图,看起来可能没那么直观,这里搜集些,方便理解也以备以后可能用到。spark schedule总图: hadoop mapreduce流程: 从图上可以看出hadoop mr每一次mr都要落盘。spark mr与hadoop mr落盘对比: spark Run原创 2016-12-11 15:01:10 · 689 阅读 · 0 评论 -
Rdd成员变量Dependency介绍(类型及其如何被初始化)
rdd都继承自 class RDD,来看下它的主构造函数:abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, // 参数deps即该rdd的依赖s @transient private var deps: Seq[Dependency[_]] ) extends Serial原创 2016-11-13 11:40:36 · 609 阅读 · 0 评论 -
spark之stage转taskSet及task最佳位置计算
stage转taskSet及task最佳位置计算这部分源码在DAGScheduler.submitMissingTasks() 函数内摆上源码: /** Called when stage's parents are available and we can now do its task. */ private def submitMissingTasks(stage: Stage,原创 2016-11-16 23:08:39 · 1126 阅读 · 0 评论 -
Spark 角色说明(Client 、Master、Worker、Driver、Executor)
Standalone模式下存在的角色Client :客户端进程,负责提交作业到Master。Master :Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,并命令Worker启动Driver和Executor。Worker :Standalone模式中slave节点上的守护进程,负责管理本节点的资源,定期向Master汇报心跳,接收Master的命令,启动原创 2016-10-29 22:32:06 · 4477 阅读 · 0 评论 -
kerbrose集群中spark任务读写hbase
项目中遇到集群开启kerbrose,需要spark读写hbase,刚开始仅仅做如下配置来获取connectionval configuration = HBaseConfiguration.create...(设置kerbrose配置)UserGroupInformation.setConfiguration(configuration)UserGroupInformation.log...原创 2018-09-27 15:11:03 · 941 阅读 · 1 评论