Spark 源码阅读学习(一)

本文旨在分享作者通过阅读Spark早期版本源码的学习经历,并提出了从项目初始版本开始阅读的建议,以此来理解项目的演进过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

写本文的目标就是立下 flag :好好研读 Spark 源码,从 branch-0.7 这个分支开始。

如何通过阅读源码提高自己

  • 大家都说要多读优秀开源框架的源码,那么怎么读呢?像 Apache Spark 在 GitHub 上有两万多个 commit,将源码导入 IDEA 之后好多好多源码文件,看着很绝望。
  • 后来我去看知乎上的如何去阅读并学习一些优秀的开源框架的源码?,很多优秀的回答核心思想都是说要看开源框架早期的代码。其中有个回答是这样说的:从第一个commit读起来,而不是最后一个。 真的是一语中的。

选择 Spark 的早期版本进行阅读

  • 自从学习了从项目早期代码读起来后,我下意识以为越早期的越好,就去 GitHub 上看分支号。最早期的分支是 branch-0.5,也就是版本号为 0.5 的代码;然后就下载下来看了一下。嗯,我不是通过切分支看的,而是通过下载zip包。只有 800 多个 commit ,代码好少,真应了那句:“伟大的项目不是一开始就很伟大,而是越来越伟大”。但是有个非常大的问题,0.5 版本的代码没有 maven 管理依赖,同时代码之间的依赖也不能方便跳转(也有可能是在下的打开姿势不对)。
  • 然后为了找个更加方便阅读的,就去查了一下哪个版本开始有 maven 管理依赖,是 0.7 开始。于是从现在开始认真研读 0.7 的代码。(flag 已立)

Spark 的第一个 commit

  • 既然有人说要从第一个 commit 开始读起来,那 Spark 的第一个 commit 是什么呢?同时怎么才能从 GitHub 上翻到第一个 commit。
  • 在SF上有个提问:如何快速查看github上的第一次commit。然后我就根据指点成功翻到了 Spark 的第一个 commit。
https://github.com/apache/spark/commit/df29d0ea4c8b7137fdd1844219c7d489e3b0d9c9

结束语

这是一个开始!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值