
Spark
铭哥大数据
这个作者很懒,什么都没留下…
展开
-
Spark中广播变量
1.广播变量的意义广播变量的好处,不需要每个task带上一份变量副本,而是变成每个节点的executor才一份副本。这样的话, 就可以让变量产生的副本大大减少,从而减少传输过程中的IO,减少存放变量的内存占用.2.下面一张高清大图说明广播的过程,Driver将数据collect到一起,然后将完整的数据分发到executors上,进行相应的处理3.广播变量的用法广播变量用法很简单,其实就是SparkContext的broadcast()方法,传入你要广播的变量,即可。context.broadca原创 2022-01-22 14:07:33 · 3301 阅读 · 0 评论 -
Spark的调度执行过程
以企业中常用的SparkOnYarn的cluster模式为例,解释Spark的调度执行过程:原创 2022-01-22 13:24:09 · 1555 阅读 · 2 评论