spark join
在大数据的应用场景中,数据的处理往往是在分布式环境上进行的,在这种情况下,数据关联的计算往往还要考虑网络分发这个环节
在分布式环境中,Spark支持两类数据分发模式,一类是shuffle,shuffle通过中间文件来完成Map阶段与Reduce阶段的数据交换;另一类是广播变量,广播变量在Driver端创建,并由Driver分发到各个Excutors,因此从数据分发的角度看,数据关联又能分为Shuffle Join和Broadcase Join
eg:
import org.apache.spark.sql.DataFrame
import spark.implicits._