
scala
文章平均质量分 59
ShyieZhang
这个作者很懒,什么都没留下…
展开
-
通过sbt参数实现scala代码编译控制
因为我们基于spark的数据平台需要针对不同的spark版本进行代码的兼容,和项目构建的方便。需要通过使用sbt构建项目时通过指定spark版本来构建依赖不同spark版本的代码。 首先,我们将不兼容的项目代码分别放到不同的目录下,目录结构如下: 然后,通过不同指定不同的spark版本编译不同的兼容代码即可,具体sbt配置如下:val sparkV = "2.3.0"lazy ...原创 2018-06-11 20:46:00 · 894 阅读 · 0 评论 -
spark源码分析-shuffle write
Spark会将job划分为多个Stage,每个job会由多个ShuffleMapStage和一个ResultStage组成,然后每个Stage会由多个Task组成,Task数量和每个Stage的Partition的数量相同。每个Task任务由单独的线程执行,不同Stage的Task之间需要进行数据流动,并且下游Stage的Task会依赖上游Stage的多个Task,所以该过程需要将数据写入磁盘,并...原创 2018-12-08 18:32:19 · 402 阅读 · 0 评论 -
spark源码分析- shuffle read
Spark会将job划分为多个Stage,每个job会由多个ShuffleMapStage和一个ResultStage组成,然后每个Stage会由多个Task组成,Task数量和每个Stage的Partition的数量相同。每个Task任务由单独的线程执行,不同Stage的Task之间需要进行数据流动,并且下游Stage的Task会依赖上游Stage的多个Task,所以该过程需要将数据写入磁盘,并...原创 2018-12-09 19:41:03 · 765 阅读 · 0 评论