Pair RDD: 提供并行操作各个键和跨节点重新进行数据分组的操作接口
创建Pair RDD
1) 把普通的RDD转化为Pair RDD
使用map方法将lines划分为以首个单词为键,行内容为值的Pair RDD
val pairs = lines.map(x => (x.split(" ")(0), x)
2) 驱动器程序中创建Pair RDD
调用SparkContext.parallelize()
val pairs = sc.parallelize(List((1,1), (2, 2), (3, 3)))
转化操作
1 Pair RDD也是RDD,所以适用于普通RDD的函数也适用于Pair R