Spark-1.2.0源码详读

最新推荐文章于 2025-12-16 15:32:44 发布

原创最新推荐文章于 2025-12-16 15:32:44 发布 · 454 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#源码 #spark

Spark 专栏收录该内容

1 篇文章

订阅专栏

本文通过一个简单的WordCount示例，详细解析了Spark的基本运行流程。从读取文件到执行reduceByKey操作并保存结果，每一步都对应着Spark的核心概念。

以常用的几行代码为例，从源码中详细解读Spark的运行流程。

算法代码在spark shell中如下：

（1）val lines = sc.textFile("README.md")

（2）val words = lines.flatMap(x => x.split(" "))

（3）val wordCounts = words.map(x => (x, 1))

（4）val cacheCounts = wordCounts.cache()

（5）val reduced = cacheCounts.reduceByKey((a, b) => a + b)

（6）reduced.saveAsTextFile("haha")

（未完待续）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

kevin8299

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark-Doris-Connecter实战

wangleigiser的博客

05-12

1113

Doris Spark 大数据

spark-1.2.0 集群环境搭建

看星星的猿

12-17

552

1、下载scala2.11.4版本下载地址为：http://www.scala-lang.org/download/2.11.4.html ，也可以使用wget http://downloads.typesafe.com/scala/2.11.4/scala-2.11.4.tgz?_ga=1.248348352.61371242.1418807768 2、解压和安装：解压：[spar

参与评论您还未登录，请先登录后发表或查看评论

spark-1.2.0 集群环境搭建(完整一套)

大数据创新开发者、大数据技术开发、创新性大数据分享

08-20

495

spark-1.2.0 集群环境搭建(sprak集群依赖hadoop至上，用的是分布式APACHE系统HDFS) （此处搭建承接文档hadoop搭建，服务地址一样需要修改配置,下面附链接）一、安装jdk(1.7)------查看hadoop环境配置文件里面的jdk配置(一样) 二、ssh免验证---------查看hadoop环境配置文件里面的ssh免验证(一样)

【spark on kubernetes】spark operator部署安装 v1beta2-1.2.0-3.0.0

热门推荐

你的博客

12-29

1万+

最近开始研究spark on kubernetes，经过调研，spark on kubernetes有两种方案，一种是官方的spark提供的原生支持按照spark-submit方式提交任务，第二种是google基于kubernetes提供的spark operator方案，还是按照kubernetes声明式语法提交任务。一. spark on kubernetes区别 spark on k8s spark on k8s operator 社区支持

vue项目如何引入远程jweixin-1.2.0.js文件并使用

weixin_41203765的博客

10-12

942

请注意，直接在Vue模板中使用script标签引入远程脚本不是一个好的实践，因为这不是Vue的推荐做法。上述示例展示了如何在组件加载时动态地加载脚本。使用npm安装axios或script-loader（如果你选择使用webpack的script-loader来引入脚本）。在你的Vue组件中，使用axios或script-loader来请求远程脚本并添加到window对象。确保在实际环境中使用适当的配置来调用wx.config，并且只有在配置成功后才使用其他API。

spring-plugin-core-1.2.0.RELEASE.jar下载

aeaxea43的博客

11-23

582

spring-plugin-core-1.2.0.RELEASE.jar - 文件下载http://kk263.cn/ft-9433.html

libzip-1.2.0.tar.gz资源文件下载：高效压缩解压工具，加速您的开发流程

gitblog_06780的博客

04-12

836

libzip-1.2.0.tar.gz资源文件下载：高效压缩解压工具，加速您的开发流程【下载地址】libzip-1.2.0.tar.gz资源文件下载 libzip-1.2.0.tar.gz 是一个高效的压缩库资源文件，广泛应用于各种开发场景。由于官方下载速度较慢，我们特别提供了快速下载服务，确保您能够迅速获取并开始使用...

xlrd-1.2.0 解决版本问题

qq_45126531的博客

03-27

1719

xlrd-1.2.0 解决版本问题安装xlrd_compdoc_commented 一样解决这个问题代码示例： import xlrd_compdoc_commented workbook = xlrd_compdoc_commented.open_workbook("成绩表.xlsx") #获取所有的sheet名字 print(workbook.sheet_names()) 结果： ...

nacos-server-1.2.0免费下载

java初识者

03-27

2113

相比nacos官网的龟速下载，本人下载了三天三夜（主要是下载失败）才下载，最新版的nacos-server-1.2.0分享给需要的兄弟链接：https://pan.baidu.com/s/1AaNqTqprmoKvn147S9tDBQ 提取码：2khd 永久有效，拿去不谢 ...

MuEditor-win64-1.2.0

02-17

版本号“1.2.0”说明了这个编辑器的版本信息，通常意味着它已经经过了一定程度的更新和完善。标签中的“MuEditor-win64-1”可能是该软件的一个错误标签，或者是开发者在上传或打包时留下的内部标识。至于文件名...

javax.activation-api-1.2.0-API文档-中文版.zip

04-23

赠送原API文档：javax.activation-api-1.2.0-javadoc.jar；赠送源代码：javax.activation-api-1.2.0-sources.jar；赠送Maven依赖信息文件：javax.activation-api-1.2.0.pom；包含翻译后的API文档：javax....

hbase-spark-1.2.0-cdh5.16.2.jar

04-08

HBaseContext所需要的jar包。由于不知道为啥maven配置仓库地址不生效。所以手动下载了个。导入本地环境的maven仓库。

jadx-gui-1.2.0-with-jre-win.zip

02-18

【标题】"jadx-gui-1.2.0-with-jre-win.zip"是一个针对Windows平台的Android APK反编译工具包，包含了jadx-gui的1.2.0版本和Java运行环境（JRE）。【描述】该工具的主要功能是帮助开发者或安全研究人员对Android...

mamba-ssm-1.2.0.post1-py3-none-any.whl

07-13

mamba_ssm-1.2.0.post1 Windows 下whl 直接 pip install 安装这个whl即可。此为旧版本，计算缓慢，不要下载。新版移步：https://blog.csdn.net/yyywxk/article/details/140420538

Spark的容错机制

2301_80954266的博客

12-15

263

每个RDD在构建数据时，会根据自己来源一步步倒导到数据来源，然后再一步步开始构建RDD数据。问题：如果一个RDD被触发多次，这个RDD就会按照依赖关系被构建多次，性能相对较差，怎么解决？

活动报名 | Apache Spark Meetup · 上海站，助力企业构建高效数据平台

科技很有意思

12-12

403

2025年12月20日，上海 · 阿里巴巴徐汇滨江园区，Apache Spark Meetup 助力企业构建高效数据平台，欢迎报名！

spark的Kryo 序列化介绍

2301_80954266的博客

12-14

1046

在 Apache Spark 分布式计算框架中，数据传输（例如 shuffle 阶段）和持久化（如将 RDD 缓存到内存或磁盘）都需要对数据进行序列化（将对象转换为字节流）和反序列化（将字节流转换回对象）。序列化/反序列化的效率对 Spark 作业的整体性能有显著影响。Spark 默认使用 Java 的原生序列化机制 (然而，这种机制通常会产生较大的序列化字节流，且序列化和反序列化的速度相对较慢。Kryo是一个快速、高效的 Java 对象序列化框架。

Spark 运行架构及相关概念

好记性不如烂笔头

12-11

841

Spark 框架的核心是一个计算引擎，整体来说，它采用了标准的 master-slave 结构。上图中的 Driver 表示 master ，负责管理整个集群中的作业任务调度；Executor 则是 slave，负责实际执行任务；

毅硕HPC | NVIDIA DGX Spark 万字硬核评测：将AI超级工厂带上桌面