本文始发于个人公众号:TechFlow,原创不易,求个关注
今天是spark系列的第一篇文章。
最近由于一直work from home节省了很多上下班路上的时间,加上今天的LeetCode的文章篇幅较小,所以抽出了点时间加更了一篇,和大家分享一下最近在学习的spark相关的内容。看在我这么拼的份上,求各位老爷赏个转发。。。
PS:本专题不保证每周更新,毕竟不是每周都能加更。。。
言归正传,spark鼎鼎大名,凡是搞分布式或者是大数据的应该都听说过它的大名。它是apache公司开发的一个开源集群计算框架,也就是分布式计算框架。相比于Hadoop的MapReduce,它支持更多的功能,并且运算速度也更快,如今已经成了非常主流的大数据计算框架。几乎各大公司当中都有它的身影。
spark支持像是java、scala和Python等众多语言,但是对于spark来说语言不太重要,不同的语言写出来的spark代码相差不太大。和之前的文章一样,我会以Python为主,毕竟Python对初学者比较友好(虽然我自己在工作当中使用的是scala)。
今天这篇文章从最基础的spark安装开始讲起,安装spark并不需要一个庞大的集群,实际上单机也可以。这也是我们学习的基础,这样我们就可以在本机上做各种实验了。和大多数环境不同,spark的安装要简单得多,这也是它比较友好的地方。
下载安装
进入spark官网,点击download

选择Pre-built for Apache Hadoop,这样我们就不用预先安装Hadoop

本文提供了一份详细的Apache Spark本地安装教程,包括下载预构建版本、配置环境变量、使用pyspark和spark-shell,以及如何在Jupyter Notebook中配置Scala和Pyspark内核,为大数据学习和实验提供了便捷的起点。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



