
mappartitions
zhou12314456
这个作者很懒,什么都没留下…
展开
-
2021-05-28
spark的工作流程是什么所有spark程序都离不开程序初始化和执行任务这两部分。一、程序初始化的流程 用户通过sparksubmit提交程序以后,driver程序开始运行(driver程序就是运行起来的提交的程序,可以理解为spark的main程序)。 driver程序运行起来会首先初始化sparkContext。 在SparkContext对象中做的最重要的事情就是构造出一个DAGSchedule和一个TaskScheduler。 上述的TaskSchedu原创 2021-05-28 22:36:00 · 191 阅读 · 0 评论 -
spark--使用MapPartitions
什么是MapPartitions?简单的理解就是以分区为单位的map函数,假如该分区有10000条数据,如果调用map函数的话,每次调用传入一条数据,也就是需要调用10000次。但是如果调用MapPartitions函数的话,只需要调用一次就能把该分区的数据传进去。MapPartitions优势性能会高一些,特别适合类似于连接数据库的场景缺点因为要一次性加载分区内所有数据,容易...原创 2020-01-03 07:15:35 · 785 阅读 · 0 评论