spark，keyValue对RDDs

Spark RDDs 操作详解

最新推荐文章于 2024-01-09 11:44:23 发布

冰竹依梦

最新推荐文章于 2024-01-09 11:44:23 发布

阅读量512

点赞数

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： spark RDDS keyValue combineByKey

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u013240812/article/details/78277511

spark 专栏收录该内容

11 篇文章

订阅专栏

keyValue对RDDs

创建keyValue对RDDs：

使用map()函数，返回key/value对

例如，包含数行数据的RDD，每行数据的第一个单词作为keys,整行作为value

val rdd=sc.textFile("/home/hellospark.txt")

rdd.foreach(println)

val rdd2= rdd.map(line=>(lines.split(" ")(0),line))

rdd2.foreach(println) (hello,hello spark)

常见操作

手动构建

val rdd3=sc.parallelize(Array((1,2),(3,4),(3,6)))

rdd3.foreach(println) (1,2) (3,4) (3,6)

reduceByKey(func)

把相同key的value累加（1,2）（3,10）

val rdd4=rdd3.reduceByKey((x,y)=>x+y)

groupByKey 相同的key的values分组

{[1,2],[3,[4,6]]}

val rdd5=rdd3.groupByKey()

mapValues(func)函数作用于pairRDD的每个元素，key不变

rdd.mapValues(x=>x+1) (1,3) (3,5) (3.7)

flatMapValues(func)符号化使用，rdd.flatMapValues(x=>(x to 5)

keys() 仅返回keys

val rdd6 =rdd3.keys 1 3 3

values()

val rdd7 = rdd3.values 2 4 6

sortByKey()

val rdd8 = rdd3.sortByKey()

combineByKey()

createCombiner,mergeValue,mergeCombiner,partitioner

聚合函数，返回类型可与输入类型不一样

许多基于key的聚合函数都用到它，像groupByKey()

原理：

遍历分区中的元素，元素的key要么是之前见过的，要么不是

如果是分区新元素，会使用createCombiner()函数

如果是这个分区已经存在的key，就会使用mergeValue()函数

合计每个分区的结果的时候，使用mergeCombiners()函数

例子，求平均值

val scores=sc.parallelize(Array(("jake",80.0),("jake",90.0),("jake",85.0),("mike",85.0),("mike",92.0),("mike",90.0)))

scores.foreach(println) (jake,80.0) (jake,90.0) (jake,85.0) (mike,85)

val score2 = score.combineBykey(score=>(1,score), (c1:(Int,Double),newscore)=>(c1._1+1,c1._2+newscore)),

score指的是value值，分数计数1 c1:科目数，累加之后分数,遍历时出现的新分数=> 科目数+1,分数加

(c1:(Int,Double),c2:(Int,Double)=>(c1._1+c2._1,c1._2+c2._2)))

科目数相加，分数相加

(jake,(3,255.0))

(mike,(3,267.0))

val average = scores2.map(case(name,(num,score))=>(name,score/num)}

(mike,89)

(jake,85)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。