键值对RDD是许多操作所需要的常见数据类型,也叫做pair RDD通常我们会从一个RDD提取某些信息作为新的RDD的键,构成一个键值对RDD。
pair RDD也是RDD,所以上一篇笔记中介绍的RDD操作对pair RDD同样适用。
本文介绍针对键值对RDD的常用操作及实例。
文章目录
1. pair RDD的创建
- 很多存储键值对的数据格式会在读取时直接返回由其键值对数据组成的pair RDD
- 使用
map
把普通RDD转化为pair RDD,map
的函数要返回键值对,如以每个句子的第一个字母作为键

2. pair RDD的Transformation操作
2.1 单个pair RDD
reduceByKey
,提供一个函数,对key相同的value进行运算,如字符串拼接

groupByKey
,将key相同的value合并为一个迭代器,得到(key, iterator)
形式的pair RDD