1)map
map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD,RDD之间的元素是一对一关系
val rdd1=sc.parallelize(1 to 9,3)
val rdd2=rdd1.map(x=>x*2)
rdd2中则存放(2, 4, 6, 8, 10, 12, 14, 16, 18)
2)filter
Filter是对RDD元素进行过滤,返回一个新的数据集
val rdd1=sc.parallelize(1 to 9,3)
val rdd2=rdd1.filter(x=>x>5)
rdd2中则存放(6,7,8,9)
3)flatMap
flatMap类似于map,但是每一个输入元素,会被映射为0到多个输出元素
如

本文介绍了Spark中的RDD转换操作,包括map、filter、flatMap、union、groupByKey、join、sample、distinct、reduceByKey、sortByKey和cogroup。这些操作用于数据处理和转换,例如数据过滤、合并、分组、排序和抽样等。
最低0.47元/天 解锁文章
1524

被折叠的 条评论
为什么被折叠?



