Pair RDD行动操作

本文介绍了RDD上的几种关键操作:countByKey用于统计每个键的数量;collectAsMap返回映射表形式的结果,若键存在多个值则保留最后一个;lookup用于查找指定键的所有值。通过这些操作可以高效地处理大规模数据集。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、countByKey: 对每个键对应的元素分别计数。

scala> val a = Seq((1,2),(3,4),(3,6))
a: Seq[(Int, Int)] = List((1,2), (3,4), (3,6))

scala> rdd.countByKey()
res10: scala.collection.Map[Int,Long] = Map(1 -> 1, 3 -> 2)

2、collectAsMap(): 将结果以映射表的形式返回,以便查询

scala> rdd.collectAsMap()
res11: scala.collection.Map[Int,Int] = Map(1 -> 2, 3 -> 6)

从结果可以知道,collectAsMap()对一个键有多个值的进行覆盖只保留最后一个。
3、lookUp(key): 返回给定键对应的所有值:

scala> rdd.lookup(3)
res13: Seq[Int] = WrappedArray(4, 6)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值