自学Spark，又是Hello World？

最新推荐文章于 2024-11-05 16:06:37 发布

原创

最新推荐文章于 2024-11-05 16:06:37 发布 · 1k 阅读

·

16

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#spark #大数据

本文通过Spark的HelloWorld案例，介绍了Spark的基本概念，如SparkContext的使用、RDD的创建和处理，以及数据源和处理过程。作者使用Scala进行开发，并讲解了IDE中的local模式和生产环境的yarn部署方式。

前言

在18年初刚开始接触学习spark的时候，买了一本《Spark大数据处理技术》的书，虽然后来一些Spark开发的知识都是从官网和实践中得来的，但是这本书对我来说是启蒙和领路的作用。

还记得这本书编程的开篇就是Spark程序”Hello World“！果然，这辈子是摆脱不了”Hello World“了。

Hello World

在大数据里第一次遇到Hello World，还是在经典的MapReduce WordCount，以此讨论如何实现map和reduce的过程。

后来学习Spark，又遇到了Hello World，同样也是用WrodCount案例，来演示Spark对数据集的基本操作。那么就借Hello World来做一个Spark的入门教程。

认识Spark

Spark是一个大数据的分布式计算框架。既能和一个普通的程序一样，运行在本地（local）IDE中，也能运行在搭建的Spark集群（Cluster）上，不过现在已经很少见。最常见的就是运行在第三方的计算调度平台上，例如yarn和K8s。

我测试使用local模式，生产是yarn，所以Spark就围绕着这两个来写。先说说在IDE中如何开发local的Spark程序。

Spark开发语言一共有三种：Java、python、scala。我使用scala来完成Spark开发，原因:

定理变量无需指定类型，使用val或var
lambada操作，更符合流式计算的感觉（我开发流式计算比较多）
调用无参方法可以不写括号
趁机多掌握一门语言，而且Spark源码大多为scala

程序开发

因为Spark源码是java和scala开发的，所以要配置java和scala环境，在选择spark版本的同时，一起选择对应的scala的版本。

为了和生产保持一致，Sp

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。