1.Join是什么
join定义如下:
def
join[W](other: RDD[(K, W)], partitioner: Partitioner): RDD[(K, (V, W))] join方法是对两个需要连接的RDD进行
内连接操作,然后对每个key下的元素进行笛卡儿积操作,返回的结果再展平。
注意:是内连接
2.产生两个RDD
val rdd1 = sc.parallelize(Array(("aa",1),("bb",2)))
val rdd2 = sc.parallelize(Array(("aa",3),("dd",1)))
3.进行join操作
val joincl = rdd1.join(rdd2)
4.使joincl变成collect集合
val joincl2= joincl.collect()

本文详细讲解了Spark中的Join操作,包括Join的定义、如何创建两个RDD、执行Join操作、转换为collect集合并遍历输出,以及提供了完整的代码示例。此外,还提及了Spark算子union的相关应用和其他算子的实用案例。
最低0.47元/天 解锁文章
3163

被折叠的 条评论
为什么被折叠?



