1.使用parallelize产生两个RDD
val rdd1 = sc.parallelize(List(("a",1),("b",2)))val rdd2 = sc.parallelize(List(("c",3),("d",4),("a",1)))
2.Union使用(包括重复数据)
rdd1.union(rdd2).foreach(print)
输出结果为:(a,1)(b,2)(c,3)(d,4)(a,1)
官网关于Union使用如下:
def
union(other: RDD[T]): RDD[T]
Permalink
Return the union of this RDD and another one. Any identical elements will appear multiple times (use .distinct() to eliminate them).如果想去除重复的数据使用distincteliminate方法。3.使用distinct去除重复数据
rdd1.union(rdd2).distinct().foreach(x => print(x+" "))
输出结果为:(a,1)(b,2)(c,3)(d,4)
本文介绍了如何在Spark中使用RDD进行Union操作来合并两个数据集,并演示了如何使用Distinct方法去除重复项。通过示例代码展示了具体的操作过程。
4135

被折叠的 条评论
为什么被折叠?



