
spark源码研究
文章平均质量分 56
spark 作为大数据开发里生态圈之一,未来有一统天下之趋势,了解它势在必行
朱智文
不求大富大贵,但求一路常青
展开
-
第四篇:coalesce 和repartition 在shuffle 和并行度之间的选择(spark2.3持续更新中...........)
coalesce:不需要shuffle, 最大线程数,并行度受分区数的影响def coalesce(numPartitions: Int): Dataset[T] = withTypedPlan { Repartition(numPartitions, shuffle = false, logicalPlan) } repartition: 需要进行shuffle,并行度很高def repa...原创 2018-07-04 17:16:56 · 1511 阅读 · 1 评论 -
第三篇:mapPartition 与map 的区别(demo 语言:java)共1000篇(spark2.3持续更新中...........)
不同点:第一:map 是推模式,mapPartition 是拉模式第二:入参:map 是一个元素,mapPartition 是一个分区的数据相同点:第一:都是进行分区的并行处理。原创 2018-07-04 11:40:47 · 1120 阅读 · 0 评论 -
第二篇:sparkContext 做了什么(demo 语言:java)共1000篇(spark2.3持续更新中...........)
首先列下sparkContext 做了哪些事,以及市怎么做的1:sparkContext 在driver 端创建2:构造参数:sparkconf 配置文件(配置参数没提到的的变量,将用默认参数使用) 2,1 参数中几个重要的参数:是否允许多个sparkContextconfig.getBoolean("spark.driver.allowMultipleContexts", false) ...原创 2018-06-29 18:21:20 · 959 阅读 · 0 评论 -
第一篇:Encoders类研究(demo 语言:java)共1000篇(spark2.3持续更新中...........)
Dataset<CityToCityLevel> resultTmp = result2.map((MapFunction<Row, CityToCityLevel>) row -> { CityToCityLevel citylevel = new CityToCityLevel(); if (row....原创 2018-06-17 15:19:25 · 1989 阅读 · 0 评论