scala版本:
val conf = new SparkConf().setMaster("local[1]").setAppName("SubtractByKey")
val sc = new SparkContext(conf)
val rdd1 = sc.makeRDD(Array((1, 2), (3, 4), (3, 6)))
val rdd2 = sc.makeRDD(Array((3, 9)))
//subtractByKey 删除两个RDD中键相同的元素
println("-----subtractByKey-----")
rdd1.subtractByKey(rdd2).collect().foreach(println)
//join 把RDD1,RDD2中相同的key给连接起来,类似于sql中的join操作
println("-----join-----")
rdd1.join(rdd2).collect().foreach(println)
//fullOuterJoin 全连接
println("-----fullOuterJoin-----")
rdd1.fullOuterJoin(rdd2).collect().foreach(println)
//leftOuterJoin 类似于sql中的左外连接,存在的话,value用Some,不存在的用None
println("-----leftOuterJoin-----")
rdd1.