Spark countByKey算子

最新推荐文章于 2025-03-15 09:38:40 发布

原创最新推荐文章于 2025-03-15 09:38:40 发布 · 503 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark

Spark 专栏收录该内容

9 篇文章

订阅专栏

本文深入解析了RDD的countByKey操作，介绍了其工作原理，包括如何对数据进行分组计数，以及在Driver端执行计算并将结果保存为Map的流程。同时，文章提供了代码实战示例，展示了如何使用countByKey处理数据并获取结果。

该算子先按照key分组再做count操作

注意事项:

1.数据类型是K,V的RDD才能调用该算子

2.该算子只会在Driver端启动Executor进程来执行计算

3.计算的结果以Map[K, Long]的形式保存在Driver端内存中

所以结果数据集灰常大的时候,建议使用

rdd.mapValues(_ => 1L).reduceByKey(_ + _)来代替,

返回的结果是一个[T, Long]类型的RDD

源码片段:

/**
   * Count the number of elements for each key, collecting the results to a local Map.
   *
   * @note This method should only be used if the resulting map is expected to be small, as
   * the whole thing is loaded into the driver's memory.
   * To handle very large results, consider using rdd.mapValues(_ => 1L).reduceByKey(_ + _), which
   * returns an RDD[T, Long] instead of a map.
   */
  def countByKey(): Map[K, Long] = self.withScope {
    self.mapValues(_ => 1L).reduceByKey(_ + _).collect().toMap
  }

代码实战

  val rdd2: RDD[(String, Int)] = sc.parallelize(List(
   ("zhangsan", 18),
   ("zhangsan", 19),
   ("lisi", 20),
   ("lisi", 20),
   ("wangwu", 18)
  ), 3)
  val countbykey: collection.Map[String, Long] = rdd2.countByKey()
  println("countbykey = " + countbykey)

运行结果:

countbykey = Map(zhangsan -> 2, wangwu -> 1, lisi -> 2)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

江湖峰哥

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark中countByKey算子详解介绍

优快云精品推荐

08-18

385

对于wordcount这个任务之前我们是使用 `reduceByKey` 来进行相同key的值进行聚合，获取每个key对应的值有多少，本文将介绍另外一个更为方便的算子 `countByKey` ，使用它直接就会返回每种key对应的值有多少，以map形式返回。

countByKey、countByValue原理-源码(spark3.0)

啊李

09-01

272

CountByKey 因为代码中调用了collect，所以是action算子将(key,value)转换成了（key，1）然后调用了reduceByKey->collect->toMap PairRDDFunctions类\ /** * TODO：统计每个不同的key的个数 * Count the number of elements for each key, collecting the results to a local ...

参与评论您还未登录，请先登录后发表或查看评论

spark第二天（十天）

YueQingFeng445的博客

07-21

666

一.Spark常用算子讲解 Spark的算子的分类　从大方向来说，Spark 算子大致可以分为以下两类: 1. Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。　　Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。 ...

Spark行动算子(Action)--countByKey算子

寒暄的博客

08-04

339

语法 Rdd. countByKey 源码 def countByKey() : scala.collection.Map[K, scala.Long] = { /* compiled code */ } 作用针对(K,V)类型的RDD，返回一个(K,Int)的map，表示每一个key对应的元素个数。例子 package com.day1 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext}

Spark行动算子之countByKey

LifeIsGood

05-19

465

今天我们来学习一下Spark的一个行动算子countByKey。先去API中看一下：此算子的作用是计算每一个key的元素个数，并且把结果保存到一个Map中。实测一下： import org.apache.spark.{SparkConf, SparkContext} object testCountByKey { def main(args: Array[S...

JavaSpark | 算子

liujiesxs的博客

07-22

1017

JavaSpark中的Transformations转换算子，Actions算子，持久化算子

spark 常用算子大全（分类详细，图片解析）

最新发布

weixin_50227709的博客

03-15

869

在 Spark RDD 的编程模型中，算子（Operator）分为（转换）和（行动）两大类。代表对 RDD 进行转换并返回新的 RDD（惰性执行），则会触发实际作业执行并返回结果（或写出到外部存储）。下面列举 Spark RDD 常用的算子，并给出简要示例及说明。

Spark常见算子总结

u010920561的博客

10-10

688

官方文档上列举共有32种常见算子，包括Transformation的20种操作和Action的12种操作。内容自己用心整理，看我的就够了 Transformation： 1.map map的输入变换函数应用于RDD中所有元素，而mapPartitions应用于所有分区。区别于mapPartitions主要在于调用粒度不同。如parallelize（1 to 10， 3），map函数执行10次，而...

RDD行动Action操作(4)–countByKey、foreach、foreachPartition、sortBy

cloud-2014的专栏

09-14

652

countByKey def countByKey(): Map[K, Long] countByKey用于统计RDD[K,V]中每个K的数量。 scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("B",3)))rdd1: org.apache.spark.rdd.RDD[(String, Int)

Spark——countByKey()与reduceByKey()

wyqwilliam的博客

11-22

567

1.transformation & action transformation ：是得到一个新的RDD，方式很多，比如从数据源生成一个新的RDD或者从RDD生成一个新的RDD action ：是得到一个值，或者一个结果（直接将RDDcache到内存中）所有的transformation都是采用的懒策略，就是如果只是将transformation提交是不会...

Spark API 之 countByKey

qq_29499107的博客

07-02

433

countByKey 和count函数类似，但是countBykey针对 k->v 对的集合使用，计算key出现的个数，案例如下val a = sc.parallelize(List((3,"a"),(3,"b"),(3,"c"),(9,"a"),(3,"a")))a.countByKey() 输出：Map(3 -> 4, 9 -> 1)...

spark countByKey源码详解

QQ1131221088的博客

05-15

726

countByKey首先使用map函数，将key，value形式的rdd数据转化为的value形式，然后调用countByValue，实现计数，属于复用函数。下面也会详细介绍countByValue Pyspark 源码关于：countByKey def countByKey(self): """ Count the number of elements f...

Spark实战(二)Spark常用算子

Arkham的专栏

12-13

1673

一、算子分类从大方向来说，Spark 算子大致可以分为以下两类: 1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。 Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。 2）Action 行动算...

Java Spark算子：count 与 countByKey

weixin_44576373的博客

02-26

372

import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaSparkContext; import scala.Tuple2; import java.util.Arrays; import java.util.List...

Spark行动算子(Action)--count算子

寒暄的博客

08-03

1056

语法 Rdd. count 源码 def count() : scala.Long = { /* compiled code */ } 作用返回RDD中元素的个数。例子 package com.day1 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object oper { def main(args: Array[String]): Unit = { v

Spark常用算子

gltncx11的博客

01-10

543

Spark的算子分为两种 1.transformation（转换）：这种算子是延迟加载，因为消息缓存比较大一旦使用了transformation算子，sc会记录使用了那些算子，算子里面使用了什么函数 2.action：触发计算一旦触发action算子，就会立即执行计算 RDD有两种创建方式： 1.是从外界的文件系统中读取数据来创建RDD 2.通过scala集合创建RDD，要将集合并行化（par...

Spark算子 reduceByKey与countByKey区别及用法

ouzhong11的博客

10-20

882

reduceByKey与countByKey区别

RDD转换算子countByKey 和 countByValue详解

yqqの博客

05-24

341

【代码】RDD转换算子countByKey 和 countByValue详解。

Spark核心算子详解：Transformations操作

"Spark基本算子操作主要涵盖了对数据集的各种转换和操作，包括但不限于映射、过滤、扁平化映射、分区映射、分区索引映射、随机采样、联合、交集和去重等。这些算子帮助用户在Spark中处理和分析大规模数据。以下是对...