Spark内存迭代计算

原创已于 2025-02-26 19:20:19 修改 · 488 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

于 2025-02-26 19:18:24 首次发布

一、宽窄依赖

窄依赖：父RDD的一个分区数据全部发往子RDD的一个分区

宽依赖：父RDD的一个分区数据发往子RDD的多个分区，也称为shuffle

二、Spark是如何进行内存计算的？DAG的作用？Stage阶段划分的作用？

（1）Spark生成DAG图

（2）基于宽窄依赖对DAG图进行阶段划分

（3）每个stage内部都是窄依赖，窄依赖内，前后形成1：1的分区关系，一个stage的多个并行任务就成为了多个内存迭代计算管道

（4）这些内存迭代计算的管道，就是一个个具体的执行Task

（5）一个Task是一个具体的线程，任务跑在一个线程之中，就是走内存计算了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小刘鸭!

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark内存计算引擎原理与代码实例讲解

AI天才研究院

05-30

935

Spark内存计算引擎原理与代码实例讲解作者：禅与计算机程序设计艺术 1. 背景介绍 1.1 大数据处理的挑战随着数据量的爆炸式增长，传统的数据处理方式已经无法满足实时性和海量数据处理的需求。MapReduce等

Spark 内核调度

wodlx_的博客

04-09

472

Spark的核心是根据RDD来实现的，Spark Scheduler则为Spark核心实现的重要一环，其作用就是任务调度。Spark的任务调度就是如何组织任务去处理RDD中每个分区的数据，根据RDD的依赖关系构建DAG，基于DAG划分Stage，将每个Stage中的任务发到指定节点运行。基于Spark的任务调度原理，可以合理规划资源利用，做到尽可能用最少的资源高效地完成任务计算。最后面的Action算子带了各自的链条，每个产生一个Job，同时每个Job有各种的DAG图。如图便产生3个DAG。

参与评论您还未登录，请先登录后发表或查看评论

Spark 内存迭代计算

不忘初欣丶的博客

04-08

1610

Spark内存迭代计算，算子之间形成DAG，每个task根据并行度在内存中不断迭代计算

Spark内存迭代

大连赵哥的博客

09-08

477

Spark内存迭代

Spark内存迭代计算初探

sawen21的专栏

04-22

1989

本文转自个人原创blog: http://www.javali.org/document/dive-into-spark-rdd.html 首先安装Spark集群前置条件，10.0.18.14-16 三台机器分别已安装好hadoop2，spark cluster机器规划 10.0.18.16为master ,10.0.18.14-16三个结点为slave,确保master到slave

Spark DAG及内存迭代计算

小叮当的博客

11-23

1495

Spark会产生DAG图。DAG图会基于分区和宽窄依赖关系划分阶段。一个阶段内部都是窄依赖，窄依赖内，如果形成前后的1:1的分区对应关系，就可以产生许多内存迭代计算管道。这些内存迭代计算的管道，就是一个个具体执行的Task。一个Task就是一个具体的线程，任务跑在一个线程内，就是走内存计算了。

Spark分布式内存计算框架

Morse_Chen的博客

12-11

4075

Spark是一种基于内存的、用以实现高效集群计算的平台。Spark有着自己的生态系统，但同时兼容HDFS、Hive等分布式存储系统，可以完美融入Hadoop的生态圈中，代替MapReduce去执行更高的分布式计算。

Spark内核调度（重点理解）

phthon1997的博客

05-17

378

文章目录1.DAG2.DAG的宽窄依赖和阶段划分3.内存迭代计算4.Spark并行度5.Spark任务调度6.Spark运行中的名词解释 1.DAG DAG:有向无环图下图是带分区关系的DAG图上图其实就是一个job，只有一个action，就是一个DAG图。 2.DAG的宽窄依赖和阶段划分 3.内存迭代计算内存迭代计算就是说在一个task进程运行，不需要网络IO，如果全部放在一个内存进程里面跑，不用网络IO，但是这样并行度会大大下降，并行度优先于网络IO。纯内存迭代就是Local模

Spark内存计算

z1987865446的博客

10-29

2913

Apache Spark 概述 Spark是一个快如闪电的统一分析引擎（计算框架）用于大规模数据集的处理。Spark在做数据的批处理计算，计算性能大约是Hadoop MapReduce的10~100倍，因为Spark使用比较先进的基于DAG任务调度，可以将一个任务拆分成若干个阶段，然后将这些阶段分批次交给集群计算节点处理。 MapReduce VS Spark MapReduce作为第一代大数据处理框架，在设计初期只是为了满足基于海量数据级的海量数据计算的迫切需求。自2006年剥离自Nutch（Java搜

第四章 Spark 内存计算

xueuihui的博客

08-28

783

Spark

Spark内存计算框架大数据基础.pptx

05-18

在迭代算法中，为了避免重复计算同一个RDD而产生的资源浪费，Spark提供了持久化功能，可以通过persist()或cache()方法标识需要持久化的RDD。一旦经过首次行动操作触发计算后，这些RDD就会被保存在计算节点的内存中...

Spark内存集群计算在迭代和交互式应用中的数据处理

Apache Spark的定义、分布式计算、集群管理器、内存计算、容错机制、RDD、DataFrames和Datasets，以及它们在迭代计算和交互式应用中的作用。这些都是理解和应用Spark进行大规模数据处理的重要知识点。

pyspark3.5给paimon1.2的表打tag报错 spark_catalog is not a ProcedureCatalog

最新发布

yy的博客

12-04

169

执行 spark.sql("CALL sys.create_tag(`table` => 'pipeline.bigdata_biz.tb1', tag => 'tag_${last1day_dt}')" )报错:java.lang.RuntimeException: spark_catalog is not a ProcedureCatalog.at org.apache.paimon.spark.catalyst.analysis.PaimonProcedureResolver$CatalogValid

CDH 6.3.2 集群外挂 Spark 3.5.7 (Paimon) 集成 Hue 实战指南

QXXDYL的博客

12-04

585

由于 CDH 默认环境未变更，原有的hive命令依然指向旧版本。针对 .sql 脚本的调度，需采用以下替代方案。

Linux单机部署spark

hahai_的博客

12-01

191

本文介绍了在Linux系统上单机部署Spark的步骤：首先确保已安装Java17环境，然后从官网或镜像站下载Spark安装包并上传至服务器解压。接着通过修改/etc/profile文件配置环境变量，添加SPARK_HOME和PATH路径。最后执行source命令刷新环境变量，并通过运行spark-shell命令验证安装是否成功。该部署流程适用于Spark 3.5.7版本，帮助用户快速搭建本地Spark开发环境。

Spark解析JSON字符串

Appreciate(欣赏)

12-03

178

【代码】Spark解析JSON字符串。

CDH 6.3.2 集群外挂部署 Spark 3.5.7 连接 Paimon 1.1.1 （一）

QXXDYL的博客

12-04

258

为了解决如上出现的问题，需要在CDH 6.3.2 版本上编译支持java8，能对paimon 1.1.1 的表进行增删改查等操作。为了解决CDH 6.3.2 默认的 Hive sql on Spark 和 Spark sql （Spark版本为2.4.0）无法写入修改Paimon 1.1.1 版本的表格数据的问题。在终端执行下述语句，用于验证hive sql on spark对paimon表数据的更新操作。发现插入数据出现报错，因此hue上不能进行数据的插入，因此我在Flink SQL进行数据的插入。

星火链智：领码SPARK融合平台与湖北数据知识产权综合服务平台全栈对接技术白皮书

领码SPARK - 以无代码之星火，燎原数字之未来！

12-01

1247

本文系统阐述了领码SPARK融合平台与湖北省数据知识产权综合服务平台的技术对接体系，基于iPaaS+aPaaS双引擎架构设计，构建"数据-协议-安全-AI"四维协同模型。通过元数据驱动智能映射、零信任安全网关、多模态协议适配器及AI增强质量检测等核心技术，实现知识产权数据资产的标准化封装、合规化流通与智能化服务。全文涵盖对接架构设计、数据格式转换、安全认证机制、AI赋能实践及实施路线图，为政务数据要素市场化配置提供可落地的技术范式。

Spark分桶表实战：如何用分桶减少 40%+ 计算时间

涤生大数据

11-30

455

今年校招面试spark的分桶表这块问的比较多一些，今天借此给小伙伴搞个案例讲讲哈！分桶本质上是对文件的划分，其执行逻辑是对分桶key的hash值对桶个数取模，在大表join场景的主要优化逻辑在于通过预先设置分桶+排序，其执行效率得以提高有两个重要原因：避免走Shuffle以及不用在内存中保存Hash数据结构。