1、RDD的宽依赖和窄依赖的区别
是否有shuffle操作,也叫洗牌操作


窄依赖:
一对一 或者 多对一


宽依赖:
一对多

窄依赖可以进行流水线优化,宽依赖不可以
优化:fork/join 机制



一个作业可以划分成多个阶段 每个阶段都是一次fork/join,多次fork/join就是宽依赖
一个作业也可以直接一个阶段完成,这就是窄依赖
宽依赖:有shuffle操作的时候 需要落到磁盘,需要等待,没有办法形成管道型的流水化处理。

RDD的运行过程:

1、RDD的宽依赖和窄依赖的区别
是否有shuffle操作,也叫洗牌操作


窄依赖:
一对一 或者 多对一


宽依赖:
一对多

窄依赖可以进行流水线优化,宽依赖不可以
优化:fork/join 机制



一个作业可以划分成多个阶段 每个阶段都是一次fork/join,多次fork/join就是宽依赖
一个作业也可以直接一个阶段完成,这就是窄依赖
宽依赖:有shuffle操作的时候 需要落到磁盘,需要等待,没有办法形成管道型的流水化处理。

RDD的运行过程:

2612

被折叠的 条评论
为什么被折叠?