键值对RDD是对Spark中许多操作所需要的常见数据类型,通常用于聚合计算。先通过ETL(抽取,转换,装载)操作来将数据转化为键值对形式。
1.创建Pair RDD
在scala中使用第一个单词作为key,创建一个pairRDD
val lines=sc.textFile("input/1.txt") val pairs = lines.map(x =>
(x.split(" ")(0),x))
![]()
还可以利用SparkContext对象的parallelize方法创建:
val prdd1=sc.parallelize(Seq((1,2),(3,4),(3,6)))
键值对RDD在Spark中广泛应用于聚合计算。通过ETL过程将数据转化为键值对,可以使用两种方式创建:一是根据scala中每个元素的第一个单词作为key生成Pair RDD;二是借助SparkContext的parallelize方法。
922

被折叠的 条评论
为什么被折叠?



