73.Spark大型电商项目-用户访问session分析-算子调优之reduceByKey本地聚合介绍

最新推荐文章于 2025-12-31 19:26:49 发布

原创最新推荐文章于 2025-12-31 19:26:49 发布 · 337 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Spark大型电商项目

大数据同时被 3 个专栏收录

196 篇文章

订阅专栏

spark

175 篇文章

订阅专栏

电商用户行为分析

141 篇文章

订阅专栏

本文介绍使用ReduceByKey算子在Spark中的作用及其带来的性能提升。通过在Map端进行本地聚合，不仅减少了磁盘I/O操作和内存占用，还降低了网络传输负载及Reduce端的数据处理量。

reduceByKey

本篇文章记录用户访问session分析-算子调优之reduceByKey本地聚合介绍。

reduceByKey

val lines = sc.textFile("hdfs://")
val words = lines.flatMap(_.split(" "))
val pairs = words.map((_, 1))
val counts = pairs.reduceByKey(_ + _)
counts.collect()

reduceByKey，相较于普通的shuffle操作（比如groupByKey），它的一个特点，就是说，会进行map端的本地聚合。

对map端给下个stage每个task创建的输出文件中，写数据之前，就会进行本地的combiner操作，也就是说对每一个key，对应的values，都会执行你的算子函数（_ + _）

用reduceByKey对性能的提升

1、在本地进行聚合以后，在map端的数据量就变少了，减少磁盘IO。而且可以减少磁盘空间的占用。

2、下一个stage，拉取数据的量，也就变少了。减少网络的数据传输的性能消耗。

3、在reduce端进行数据缓存的内存占用变少了。

4、reduce端，要进行聚合的数据量也变少了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zerone-f

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark 性能调优之 repartition解决spark sql低并行度问题

chixushuchu的博客

12-19

1万+

首先，还是抛出官网文档吧参考2.0版本 http://spark.apache.org/docs/2.0.2/tuning.html#level-of-parallelism

spark 算子优化 repartiton

weixin_42435657的博客

04-07

708

参与评论您还未登录，请先登录后发表或查看评论

spark 大型项目实战(四十一):算子调优之使用repartition解决Spark SQL低并行度的性能问题

u012957549的博客

06-24

8005

并行度：之前说过，并行度是自己可以调节，或者说是设置的。 1、spark.default.parallelism 2、textFile()，传入第二个参数，指定partition数量（比较少用）咱们的项目代码中，没有设置并行度，实际上，在生产环境中，是最好自己设置一下的。官网有推荐的设置方式，你的spark-submit脚本中，会指定你的application总共要启动多少个executo...

深入解析 Spark SQL 中的 REPARTITION 操作

weixin_42326851的博客

07-03

8329

深入解析 Spark SQL 中的 REPARTITION 操作

spark 的 repartition

Code_LT的博客

04-20

2411

在Spark SQL中，“repartition by column” 是指根据某个列对数据进行重新分区。它可以帮助您通过控制分区键来改善作业的性能。重新分区可以提高分布式作业的性能，因为它可以帮助更好地利用集群中的资源。但同时也要注意，不适度的重新分区可能导致性能下降，因此需要适当的平衡。Spark SQL是Apache Spark的一部分，提供了一种使用SQL语言的方式来处理大数据。其中，“df” 是您要重新分区的数据框，“column_name” 是您想要作为分区键的列的名称。

Spark大型项目实战：电商用户行为分析大数据平台

hr868686的博客

11-29

4694

课程名称：Spark大型项目实战：电商用户行为分析大数据平台（高端大数据项目实战课程）价值2250元课程目录：一、大数据集群搭建第1讲-课程介绍第2讲-课程环境搭建：CentOS 6.4集群搭建第3讲-课程环境搭建：hadoop-2.5.0-cdh5.3.6集群搭建第4讲-课程环境搭建：hive-0.13.1-cdh5.3.6安装第5讲-课程环境搭建：zookeeper-3.4.5-cdh5....

基于Spark的电商用户行为分析平台源码解析

在“用户session分析”模块中，原始的日志数据首先被读取为RDD，并通过keyBy操作按照session_id进行分组，随后利用aggregateByKey或reduceByKey等算子完成聚合指标的计算，如每个session的访问时长、页面浏览数、...

大数据之Spark（九）：Spark Streaming 概述

Oak_Komorebi的博客

08-23

1720

一、流式计算简介 1.1 流式计算理解流式计算，最形象的例子，就是小明的往水池中放(入)水又放(出)水的案例。流式计算就像水流⼀样，数据连绵不断的产生，并被快速处理，所以流式计算拥有如下⼀些特点：数据是无界的(unbounded) 数据是动态的计算速度是非常快的计算不止一次计算不能终⽌反过来看看⼀下离线计算有哪些特点：数据是有界的(Bounded) 数据静态的计算速度通常较慢计算只执行一次计算终会终止在大数据计算领域中，通常所...

北风网用户行为分析

qq_44717177的博客

09-02

701

数据库链接池不用连接池：如果频繁的开关Connection连接，那么会造成大量的对网络、IO资源的申请和释放的无谓的时间的耗费数据库连接池：会自己在内部持有一定数量的数据库连接，然后每次java程序要通过数据库连接往MySQL发送SQL语句的时候，都会从数据库连接池中获取一个连接，然后通过它发送SQL语句。SQL语句执行完之后，不会调用Connection.close()，而是将连接还回数据库连接池里面去。数据库连接池的好处： 1、java程序不用自己去管理Connection的创建和销毁，代

Spark并行度优化：充分利用集群资源

最新发布

2502_91592937的博客

12-31

528

在分布式计算框架中，并行度是决定集群资源利用率和作业执行效率的关键参数。不合理的并行度设置会导致任务分配不均、资源浪费或性能瓶颈。并行度在RDD/DataFrame/Dataset中的底层实现机制任务调度系统（DAG Scheduler + Task Scheduler）的资源分配逻辑数据分区策略与计算资源的匹配关系内存/CPU资源约束下的最优并行度计算方法章节核心内容核心概念解析Spark并行计算模型，包括RDD分区、任务调度流程、资源管理器交互机制算法原理。

SparkSql中的repartition 与 coalesce

You can you up,No can no bb !

03-22

4223

SparkSql的repartition和coalesceSparkSql 写hive小文件后记 repartition(numPartitions:Int)和coalesce(numPartitions:Int，shuffle:Boolean=false) 作用：对RDD的分区进行重新划分，repartition内部调用了coalesce，参数shuffle为true 例：RDD有N个分区，需要...

sparksql实现repartition算子效果

weixin_42450619的博客

05-09

437

sparksql实现repartition算子效果

Spark性能调优-----算子调优（四）repartition解决SparkSQL低并行度问题

weidajiangjiang的博客

11-30

1288

常规性能调优中我们讲解了并行度的调节策略，但是，并行度的设置对于Spark SQL是不生效的，用户设置的并行度只对于Spark SQL以外的所有Spark的stage生效。 Spark SQL的并行度不允许用户自己指定，Spark SQL自己会默认根据hive表对应的HDFS文件的split个数自动设置Spark SQL所在的那个stage的并行度，用户自己通spark.default.paral...

spark partition 理解 / coalesce 与 repartition的区别

weixin_30642267的博客

08-27

697

spark partition 理解 / coalesce 与 repartition的区别一.spark 分区 partition的理解： spark中是以vcore级别调度task的。如果读取的是hdfs，那么有多少个block，就有多少个partition 举例来说：sparksql 要读表T, 如果表T有1w个小文件，那么就有1w个...

spark算子调优四：repartition解决SparkSQL低并行度问题

ITBOY_ITBOX博客

06-11

1471

在第一节的常规性能调优中我们讲解了并行度的调节策略，但是，并行度的设置对于Spark SQL是不生效的，用户设置的并行度只对于Spark SQL以外的所有Spark的stage生效。 Spark SQL的并行度不允许用户自己指定，Spark SQL自己会默认根据hive表对应的HDFS文件的split个数自动设置Spark SQL所在的那个stage的并行度，用户自己通spark.default...

spark--transform算子--repartition

书灯的博客

07-19

484

repartition，功能是将RDD的partition的数量增多或者减少

Spark SQL用UDF实现按列特征重分区 repatition

tianyeshiye

06-27

1293

转：https://cloud.tencent.com/developer/article/1371921 解决问题之前，要先了解一下Spark 原理，要想进行相同数据归类到相同分区，肯定要有产生shuffle步骤。比如，F到G这个shuffle过程，那么如何决定数据到哪个分区去的呢？这就有一个分区器的概念，默认是hash分区器。假如，我们能在分区这个地方着手的话肯定能实现我们的目标...

spark coalesce java_Spark SQL 查询中 Coalesce 和 Repartition 暗示（Hint）

weixin_33973572的博客

03-02

676

如果你使用 coalesce 或 repartition 来修改程序的并行度： val data = sc.newAPIHadoopFile(xxx).coalesce(2).map(xxxx)或val data = sc.newAPIHadoopFile(xxx).repartition(2).map(xxxx)val df = spark.read.json("/user/iteblog/js...

SparkCore：RDD Shuffle operations、coalesce和repartition算子、reduceByKey和groupByKey对比

11号车厢

08-03

537

文章目录1、Shuffle operations2、Performance Impact3、coalesce和repartition算子4、reduceByKey、groupByKey对比官网：Shuffle operations http://spark.apache.org/docs/2.4.2/rdd-programming-guide.html#shuffle-operations 1、...

spark性能调优--资源参数调优、算子调优、shuffle参数调优、spark 数据倾斜调优

06-06

Spark性能调优包括四个方面：资源参数调优、算子调优、shuffle参数调优和数据倾斜调优。资源参数调优：包括调整Executor内存、CPU核数、Executor数量等参数，以最大化利用集群资源。算子调优：通过使用合适的...